Внутренняя оптимизация сайта – основа успешного продвижения в ТОП. А что из аспектов внутренней оптимизации придется делать seo специалисту, вы узнаете ниже.
В этой статье будут затронуты по большей части программные аспекты внутренней оптимизации. А именно – поговорим о настройке ЧПУ, robots.txt, .htaccess и о sitemap.
Говоря простым языком robots.txt – это текстовый файл, который обычно находится в корневой директории сайта и диктует ботам правила поведения на вашем блоге. Поисковые роботы, при посещении любого сайта, в первую очередь обращаются именно к этому файлу. С помощью грамотно составленного robots.txt можно, например, защитить приватную информацию, хранящуюся на сайте, спрятать не уникальный контент или запретить индексацию сайта ненужными ботами. Также указать основное зеркало домена и отметить, с какой частотой боту рекомендуется заходить на ваш сайт, хотя не факт, что робот будет этого придерживаться.
Официальный сайт robotstxt.org поможет разобраться с нюансами, правда, сайт англоязычный. На данный момент удобнее всего использовать анализ robots.txt в Яндекс.Вебматер, где можно проверить правильность составления файла и удостовериться, что робот будет пропускать запрещенные к индексированию страницы.
Для этого нужно в боковом меню выбрать раздел “настройка индексировая”, подраздел “анализ robots.txt”, далее все интуитивно понятно. В выпадающем окошке, можно убедиться, что нужные страницы недоступны роботы. Также Яндекс акцентирует внимание на том, что изменения robots.txt в Вебмастере не синхронизируются с одноименным файлом в корневом каталоге. Таким образом, чтобы сохранить произведенные изменения, нужно самостоятельно загрузить их на сайт.
Я.Вебмастер, анализ robots.txt
Каждый робот находит в структуре файла общую секцию и свою собственную, если таковая для него прописана, и руководствуется описанными там правилами.
Некоторые CMS генерируют robots.txt автоматически, исходя из настроек приватности, но можно написать этот файл и вручную.
В общем-то нам нужно определиться, какие бы мы страницы хотели закрыть от роботов и заполнить эти основные поля.
User-agent: – в этом поле прописываем имя бота, названный паук будет считать это своей персональной секцией. Если для всех ботов предполагаются одинаковые правила поведения на сайте – ставим “*”.
Поля Allow: , Disallow: – эти поля имеют особые шаблоны для заполнения, которые показаны ниже на картинке на примере директории Diallow:, все те же правила применимы и к Allow: , но с учетом противоположного значения-разрешить.
Поисковой паук учитывает порядок этих директив, приоритет отдается той, которая находится выше. Таким образом если первой секцией мы запрещаем к индексации весь сайт, а второй разрешаем его часть – робот вообще не проиндексирует сайт. Это очень важный момент, нужно его помнить и проверять.
Возвращаемся к следующему полю файла robots.txt.
Sitemap: – тут указывается путь к sitemap, например http://site.ru/sitemap.xml.
Sitemap может генерироваться автоматически (многими CMS или с помощью www.xml-sitemaps.com) и быть создан вручную. Необходим для скорейшей индексации сайта или его новых страниц. О появлении sitemap рекомендуется сообщать поисковикам в панели Вебмастера.
Crawl-delay: – указывается число, которое подразумевает сколько секунд пройдет после окончания закачки одной страницы и началом закачки другой. Делается это для уменьшения нагрузки на сайт.
Host: – собственно имя сайта, его главное зеркало, например, site.ru. Для Яндекса обязательно указывать. По этому поводу хорошо написано в Яндекс.Помощи.
Ну и завалидировать готовый robots можно в инструментах для вебмастеров Google и Яндекс. Правильный robots.txt – это как юзабилити для поисковых пауков :)
Однако, есть так называемые роботы “несознательные”, как правило они приходят на сайт с неясными намерениями и могут создавать дополнительные нагрузки, которые нам ни к чему. И даже Robots.txt для них не помеха, они его игнорируют, в таком случае, оптимизатору на помощь приходит системный файл .htaccess, который также находится в корне сайта.
Seo специалисту нужно быть крайне аккуратным при редактировании .htacces, рекомендуется делать несколько копий, чтобы иметь возможность вернуть все, как было. А лучше всего обращаться к программистам. Сеошника в .htacces в основном интересуют следующие возможности:
— Возможность настройки редиректов: внутреннего, 301, 302;
— Склейка www.site.ru и site.ru;
— Помощь при настройке ЧПУ (однако, если CMS не настроена на работу с ЧПУ, сделать ничего нельзя)
Ох, ну что можно сказать в заключение. Все эти моменты очень важны и должны правильно применяться для технически правильной работы сайта. Минимальные навыки программирования seo специалисту, как ни крути, необходимы, но сложные вещи лучше поручать программистам.