Ответы об IT

Ответы об IT

» » Быстрое индексирование. Опасность медленной индексации. Ускоряем отправку новых страниц в индекс

Быстрое индексирование. Опасность медленной индексации. Ускоряем отправку новых страниц в индекс

Здравствуйте, уважаемые читатели блога сайт. Сегодня речь пойдет о Яндекс Вебмастере. Это специально созданный поисковой системой сервис, который призван помочь нам () хоть в какой-то мере следить и влиять на судьбу своего сайта .

Довольно трудно придумать причины, по которым можно было не советовать добавить свой проект в эту панель инструментов сразу после его создания. Ничего порочащего ваш ресурс поисковику вы этим самым не сообщите (чего бы он и так не знал), а вот выигрыш можно получить реальный.

Вы будете в курсе степени индексации вашего ресурса этой поисковой системой (и сможете даже направлять робота для переобхода нужных страниц), а так же узнаете все внешние и внутренние ссылки для всех страниц вашего ресурса, которые знает Yandex. При возникновении проблем с индексацией или же заражении сайта вирусом, вам оперативно об этом сообщат. Недавно появилась возможность проверить ваш сайт на оптимизацию под мобильные устройства, провести технический аудит и узнать от наложенных системой фильтрах (нарушениях).

В случае коммерческих ресурсов вы сможете влиять на снипет, тем самым повышая его привлекательность в поисковой выдаче или же присвоить сайту нужный регион. Ну, и еще кое-что может Yandex Webmaster, взамен не требуя практически ничего. Но давайте обо всем по порядку.

Инструменты Yandex Webmaster доступные без регистрации

Панель инструментов под названием Яндекс.Вебмастер появилась у этой поисковой системы уже довольно давно, аж в 2007 году. Особо сильно ее функционал с тех пор не изменялся, но кое-какие доработки (разработки) все же велись и ведутся до сих пор (появилась и наложенные фильтры, форма для подтверждения авторства текстов, присвоение региона, валидация мобильной версии, инструмент влияния на снипеты, а так же микроразметки и карты сайта).

Я поставил везде галочки напротив поля «Пересылать на электронную почту», ибо не так часто захожу в данную панель. Изменить адрес почтового ящика, на который будет идти рассылка, можно будет на вкладке «Пересылка».

Вход в панель Яндекса для вебмастеров

Из всего многообразия у меня подключены только "Оригинальные тексты " . Почему? Да, потому что тематика сайта не подпадает ни под что другое.

Как закрепить авторство на тексты в Яндекс Вебмастере?

У вас, естественно, может быть другая ситуация и я настоятельно советую пользоваться этими дополнительными инструментами из арсенала Яндекс Вебмастера, ибо ваш сниппет в выдаче станет выглядеть намного более привлекательно.

Тем более, что на эту тему имеется очень неплохой пояснительный ролик — передача дополнительных сведений о сайте с помощью семантической разметки:

А что такое «Оригинальные тексты» ? Это реальная возможность показать Яндексу, кто именно обладает , которые публикуются на вашем сайте — вы или тот «редиска», что у вас их .

Правда, почему то до сих пор присутствует непонятное ограничение — сервис доступен лишь для ресурсов, Тиц которых отличен от нуля . Казалось бы, молодые проекты нуждаются в таком инструменте не меньше (а может быть даже и больше), чем ресурсы с историей и авторитетом. Ан нет — стоит ограничение. Видимо, чем-то это обусловлено.

По заверениям яндекса сейчас через эту форму добавляется несколько тысяч текстов в день и примерно треть из них не являются оригинальными (кто-то хочет закрепить за собой чужой материал). Однако, около восьмидесяти процентов добавленных в эту форму уникальных текстов признаются авторскими и это учитывается при ранжировании.

Поэтому обязательно перед публикацией новой статьи (или перед глобальным обновлением старой) вставьте ее текст в форму «Оригинальные тексты» из арсенала Yandex webmaster. Таким образом вы застолбите свое преимущество перед теми, кто занимается плагиатом. Можно, кончено же, самому потом и писать гневные письма им, их хостерам и поисковым система, но лучше все же пойти более простым путем.

Тексты в форму следует добавлять без Html разметки (только текст статьи таким, как его видят посетители сайта). Есть ограничения в размерах (от 2 до 32 тысяч знаков). Если статья очень большая, то ее можно разбить на два или более кусков, чтобы они смогли загрузиться в эту форму и были учтены при ранжировании. Гарантию учета вашего авторства поиск не дает, поэтому нам остается только уповать на удачу.

Вид вашего сайта в поисковой выдаче и предупреждение о вирусах

Раскрывающееся меню «Сайт в результатах поиска» имеет две вкладки:


Ну, вот мы и добрались до последней вкладки "Безопасность " . Если у вас там красуется единственная надпись «Вредоносный код на сайте не обнаружен», то можно спасть спокойно, единственно что, это поставить необходимые галочки в настройках панели для вебмастеров от Яндекса, чтобы в случае обнаружения вируса к вам на указанный Емайл пришло бы соответствующее письмо (читайте об этом выше по тексту).

Если же при входе на главную страницу этого сервиса вы увидели вверху страницы страшный значок и предупреждение о вирусах , то немедленно переходите на вкладку «Безопасность» для выяснения деталей:

Обычно там приводится список страниц сайта, которые имеют в своем составе вредоносный код и которые были заблокированы в поисковой выдаче, а так же в и всех других браузерах, где :

О том, как себя вести при заражении сайта вирусами и как этого избежать в будущем подробно рассказывается в приведенном видео:

К сожалению, простых способов нет, но если у вас на хостинге или на компьютере будет находиться , сделанный еще до заражения, то самым простым вариантом будет восстановиться из него (только файлы сайта, я имею в виду, ибо база чаще всего не страдает при заражении).

Когда произведете все необходимые действия, то жмите на кнопку «Перепроверить» , показанную на приведенном чуть выше скриншоте. Через некоторое время сообщение о заражении вирусами сайта либо исчезнет, либо вам скажут, что вирус по прежнему живее всех живых. В особо сложных случаях без помощи профессионалов обойтись не получится. Удачи.

Удачи вам! До скорых встреч на страницах блога сайт

посмотреть еще ролики можно перейдя на
");">

Вам может быть интересно

Гугл вебмастер - инструменты Search Console (Google Webmaster)
Bing вебмастер - центр для вебмастеров от поисковой системы Бинг
Домены с www и без него - история появления, использование 301 редиректа для их склеивания

Что такое индексирование? Это процесс получения роботом содержимого страниц вашего сайта и включение этого содержимого в результаты поиска. Если обратиться к цифрам, то в базе индексирующего робота содержится триллионы адресов страниц сайта. Ежедневно робот запрашивает миллиарды таких адресов.

Но этот весь большой процесс индексирования Интернета можно разделить на небольшие этапы:


Во-первых, индексирующий робот должен узнать о появлении страницы вашего сайта. Например, проиндексировав другие страницы в Интернете, найдя ссылки, либо загрузив файл set nemp. О страничке мы узнали, после чего планируем обход этой страницы, отправляем данные к вашему серверу на запрос этой страницы сайта, получаем контент и включаем его в результаты поиска.

Этот весь процесс – это процесс обмена индексирующим роботом с вашим сайтом. Если запросы, которые посылает индексирующий робот, практически не меняются, а меняется только адрес страницы, то ответ вашего сервера на запрос страницы роботом зависит от многих факторов:

  • от настроек вашей CMS;
  • от настроек хостинг провайдера;
  • от работы промежуточного провайдера.

Этот ответ как раз меняется. Прежде всего при запросе страницы робот от вашего сайта получает такой служебный ответ:


Это HTTP заголовки. В них содержится различная служебная информация, которая дает роботу понять передача какого контента сейчас будет происходить.

Мне хочется остановиться на первом заголовке – это HTTP-код ответа, который указывает индексирующему роботу на статус страницы, которую запросил робот.

Таких статусов HTTP-кодов несколько десятков:


Я расскажу о самых популярных. Наиболее распространенный код ответа – это HTTP-200. Страница доступна, ее можно индексировать, включать в результаты поиска, все отлично.

Противоположность этого статуса – это HTTP-404. Страница отсутствует на сайте, индексировать нечего, включать в поиск тоже нечего. При смене структуры сайтов и смене адресов внутренних страниц мы советуем настраивать 301 сервер на редирект. Как раз он укажет роботу на то, что старая страница переехала на новый адрес и необходимо включать в поисковую выдачу именно новый адрес.

Если контент страницы не менялся с последнего посещения страницы роботом, лучше всего возвращать код HTTP-304. Робот поймет, что обновлять в результатах поиска страницы не нужно и передача контента тоже не будет происходить.

При кратковременной доступности вашего сайта, например, при проведении каких-либо работ на сервере, лучше всего настраивать HTTP-503. Он укажет роботу на то, что сейчас сайт и сервер недоступны, нужно зайти немножко попозже. При кратковременной недоступности это позволит предотвратить исключение страниц из поисковой выдачи.

Помимо этих HTTP-кодов, статусов страниц, необходимо еще получить непосредственно контент самой страницы. Если для обычного посетителя страница выглядит следующим образом:


это картиночки, текст, навигация, все очень красиво, то для индексирующего робота любая страница – это просто набор исходного кода, HTML-кода:


Различные метатеги, текстовое содержимое, ссылки, скрипты, куча всякой информации. Робот собирает ее и включает в поисковую выдачу. Кажется, все просто, запросили страницу – получили статус, получили содержимое, включили в поиск.

Но недаром в службу поискового сервиса в Яндексе приходит более 500 писем от вебмастеров и владельцев сайтов о том, что возникли определенные проблемы как раз с ответом сервера.

Все эти проблемы можно разделить на две части:

Это проблемы с HTTP-кодом ответа и проблемы с HTML-кодом, с непосредственным содержимым страниц. Причин возникновения этих проблем может быть огромное множество. Самая распространенная – это блокировка индексирующего робота хостинг-провайдером.


Например, вы запустили сайт, добавили новый раздел. Робот начинает посещать ваш сайт чаще, увеличивает нагрузку на сервер. Хостинг-провайдер видит это на своих мониторингах, блокирует индексирующего робота, и поэтому робот не может получить доступ к вашему сайту. Вы заходите на ваш ресурс – все отлично, все работает, странички красивенькие, все открывается, все супер, робот при этом проиндексировать сайт не может. При временной недоступности сайта, например, если забыли оплатить доменное имя, сайт отключен на несколько дней. Робот приходит на сайт, он недоступен, при таких условиях он может пропасть из поисковой выдачи буквально через некоторое время.

Некорректные настройки CMS, например, при обновлении или переходе на другую CMS, при обновлении дизайна, так же могут послужить причиной того, что страницы вашего сайта могут пропасть из выдачи при некорректных настройках. Например, наличие запрещающего метатега в исходном коде страниц сайта, некорректная настройка атрибута canonical. Проверяйте, что после всех изменений, которые вы вносите на сайт, страницы доступны для робота.

В этом вам поможет инструмент в Яндекс. Вебмастере по проверке ответа сервера:


Можно посмотреть какие HTTP заголовки возвращает ваш сервер роботу, непосредственно содержимое страниц.


В разделе «индексирование» собрана статистика, где вы можете посмотреть какие страницы исключены, динамику изменения этих показателей, сделать различную сортировку и фильтрацию.


Так же, уже сегодня говорил об этом разделе, раздел «диагностика сайта». В случае, если ваш сайт стал недоступен для робота, вы получите соответствующее уведомление и рекомендации. Каким образом это можно исправить? Если таких проблем не возникло, сайт доступен, отвечает кодам-200, содержит корректный контент, то робот начинает в автоматическом режиме посещать все страницы, которые он узнает. Не всегда это приводит к нужным последствиям, поэтому деятельность робота можно определенным образом ограничить. Для этого существует файл robots.txt. О нем мы и поговорим в следующем разделе.

Robots.txt

Сам по себе файлик robots.txt – это небольшой текстовый документ, лежит он в корневой папке сайта и содержит строгие правила для индексирующего робота, которые нужно выполнять при обходе сайта. Преимущества файла robots.txt заключаются в том, что для его использования не нужно особых и специальных знаний.

Достаточно открыть Блокнот, ввести определенные правила по формату, а затем просто сохранить файл на сервере. В течении суток робот начинает использовать эти правила.

Если взять пример файла robots.txt простенького, вот он, как раз на следующем слайде:


Директива User-Agent:” показывает для каких роботов предназначается правило, разрешающие\запрещающие директивы и вспомогательные директивы Sitemap и Host. Немножко теории, хочется перейти к практике.

Несколько месяцев назад мне захотелось купить шагометр, поэтому я обратился к Яндекс. Маркету за помощью с выбором. Перешел с главной страницы Яндекс на Яндекс. Маркет и попал на главную страницу сервиса.


Внизу вы видите адрес страницы, на которую я перешел. К адресу самого сервиса еще добавился идентификатор меня, как пользователя на сайте.

Потом я перешел в раздел «каталог»


Выбрал нужный подраздел и настроил параметры сортировки, цену, фильтр, как сортировать, производителя.

Получил список товаров, и адрес страницы уже разросся.

Зашел на нужный товар, нажал на кнопочку «добавить в корзину» и продолжил оформление.

За время моего небольшого путешествия адреса страниц менялись определенным образом.


К ним добавлялись служебные параметры, которые идентифицировали меня, как пользователя, настраивали сортировку, указывали владельцу сайта откуда я перешел на ту или иную страницу сайта.

Такие страницы, служебные страницы, я думаю, что не очень будут интересны пользователям поисковой системы. Но если они будут доступны для индексирующего робота, в поиск они могут попасть, поскольку робот себя ведет, по сути, как пользователь.

Он переходит на одну страничку, видит ссылочку, на которую можно кликнуть, переходит на нее, загружает данные в базу робота свою и продолжает такой обход всего сайта. В эту же категорию таких адресов можно отнести и личные данные пользователей, например, такие, как информация о доставке, либо контактные данные пользователей.

Естественно, их лучше запрещать. Как раз для этого и поможет вам файл robots.txt. Вы можете сегодня вечером по окончанию Вебмастерской прийти на свой сайт, покликать, посмотреть какие страницы действительно доступны.

Для того, чтобы проверить robots.txt существует специальный инструмент в Вебмастере:


Можно загрузить, ввести адреса страниц, посмотреть доступны они для робота или нет.


Внести какие-то изменения, посмотреть, как отреагирует робот на эти изменения.

Ошибки при работе с robots.txt

Помимо такого положительного влияния – закрытие служебных страниц, robots.txt при неправильном обращении может сыграть злую шутку.

Во-первых, самая распространенная проблема при использовании robots.txt – это закрытие действительно нужных страниц сайта, те, которые должны находиться в поиске и показываться по запросам. Прежде чем вы вносите изменения в robots.txt, обязательно проверьте не участвует ли страница, которую вы хотите закрыть, не показывается ли по запросам в поиске. Возможно страница с каким-то параметрами находится в выдаче и к ней приходят посетители из поиска. Поэтому обязательно проверьте перед использованием и внесением изменений в robots.txt.

Во-вторых, если на вашем сайте используются кириллические адреса, в robots.txt их указать не получится в прямом виде, их обязательно нужно кодировать. Поскольку robots.txt является международным стандартным, им следуют все индексирующие роботы, их обязательно нужно будет закодировать. Кириллицу в явном виде указать не получится.

Третья по популярности проблема – это различные правила для разных роботов разных поисковых систем. Для одного индексирующего робота закрыли все индексирующие страницы, для второго не закрыли совсем ничего. В результате этого у вас в одной поисковой системе все хорошо, в поиске нужная страница, а в другой поисковой системе может быть трэш, различные мусорные страницы, еще что-то. Обязательно следите, если вы устанавливаете запрет, его нужно делать для всех индексирующих роботов.

Четвертая по популярности проблема – это использование директивы Crawl-delay, когда в этом нет необходимости. Данная директива позволяет повлиять на чистоту запросов со стороны индексирующего робота. Это практический пример, маленький сайт, разместили его на небольшом хостинге, все прекрасно. Добавили большой каталог, робот пришел, увидел кучу новых страниц, начинает чаще обращаться на сайт, увеличивает нагрузку, скачивает это и сайт становится недоступным. Устанавливаем директиву Crawl-delay, робот видит это, снижает нагрузку, все отлично, сайт работает, все прекрасно индексируется, находится в выдаче. Спустя какое-то время сайт разрастается еще больше, переносится на новый хостинг, который готов справляться с этими запросами, с большим количеством запросов, а директиву Crawl-delay забывают убрать. В результате чего робот понимает, что на вашем сайте появилось очень много страниц, но не может их проиндексировать просто из-за установленной директивы. Если вы когда-либо использовали директиву Crawl-delay, проверьте, что сейчас ее нет и что ваш сервис готов справиться с нагрузкой от индексирующего робота.


Помимо описанной функциональности файл robots.txt позволяет еще решить две очень важные задачи – избавиться от дублей на сайте и указать адрес главного зеркала. Об этом как раз мы и поговорим в следующем разделе.

Дубли


Под дублями мы понимаем несколько страниц одного и того же сайта, которые содержат абсолютно идентичный контент. Самый распространенный пример – это страницы со слешом и без слеша в конце адреса. Так же под дублем можно понимать один и тот же товар в различных категориях.

Например, роликовые коньки могут быть для девочек, для мальчиков, одна и та же модель может находиться в двух разделах одновременно. И, в-третьих, это страницы с незначащим параметром. Как в примере с Яндекс. Маркетом эта страничка «идентификатор сессии», такой параметр не меняет контент страницы в принципе.

Чтобы обнаружить дубли, посмотреть к каким страницам робот обращается, вы можете использовать Яндекс. Вебмастер.


Помимо статистики есть еще и адреса страниц, которые робот загрузил. Вы видите код и последнее обращение.

Неприятности, к которым приводят дубли

Чем же плохи дубли?

Во-первых, робот начинает обращаться к абсолютно идентичным страницам сайта, что создает дополнительную нагрузку не только на ваш сервер, но и влияет на обход сайта в целом. Робот начинает уделять внимание дублирующим страницам, а не тем страницам, которые нужно индексировать и включать в поисковую выдачу.


Вторая проблема – это то, что дублирующие страницы, если они доступны для робота, могут попасть в результаты поиска и конкурировать с основными страницами по запросам, что, естественно, может негативно повлиять на нахождение сайта по тем или иным запросам.

Как можно бороться с дублями?

Прежде всего я советую использовать “canonical” тег для того, чтобы указать роботу на главную, каноническую страницу, которая должна индексироваться и находиться в поиске по запросам.

Во втором случае можно использовать 301 серверный редирект, например, для ситуаций со слешом на конце адреса и без слеша. Установили перенаправление – дублей нет.


И в-третьем, как я уже говорил, это файл robots.txt. Можно использовать как запрещающие директивы, так и директиву Clean-param для того, чтобы избавиться от незначащих параметров.

Зеркала сайта

Вторая задача, которую позволяет решить robots.txt – это указать роботу на адрес главного зеркала.


Зеркала – это группа сайтов, которые абсолютно идентичны, как дубли, только различные два сайта. Вебмастера обычно с зеркалами сталкиваются в двух случаях – когда хотят переехать на новый домен, либо, когда для пользователя нужно сделать несколько адресов сайта доступными.

Например, вы знаете, что пользователи, когда набирают ваш адрес, адрес вашего сайта в адресной строке, часто делают одну и ту же ошибку – опечатываются, не тот символ ставят или еще что-то. Можно приобрести дополнительный домен для того, чтобы пользователям показывать не заглушку от хостинг-провайдера, а показывать тот сайт, на который они действительно хотели перейти.

Остановимся на первом пункте, потому что именно с ним чаще всего и возникают проблемы в работе с зеркалами.

Весь процесс переезда я советую осуществлять по следующей инструкции. Небольшая инструкция, которая позволит вам избежать различных проблем при переезде на новое доменное имя:

Во-первых, вам необходимо сделать сайты доступными для индексирующего робота и разместить на них абсолютно идентичный контент. Так же убедитесь, что о существовании сайтов роботу известно. Проще всего добавить их в Яндекс. Вебмастер и подтвердить на них права.

Во-вторых, с помощью директивы Host указывайте роботу на адрес главного зеркала – тот, который должен индексироваться и находиться в результатах поиска.

Ждем склейки и переноса всех показателей со старого сайта на новый.


После чего уже можно установить перенаправление со старого адреса на новый. Простенькая инструкция, если вы переезжаете, обязательно используйте ее. Надеюсь, проблем не возникнет с
переездом.

Но, естественно, при работе с зеркалами возникают ошибки.

Прежде всего самая главная проблема – это отсутствие явных указаний для индексирующего робота на адрес главного зеркала, тот адрес, который должен находиться в поиске. Проверьте на ваших сайтах, что в robots.txt у них указана директива хоста, и она ведет именно на тот адрес, который вы хотите видеть в поиске.

Вторая по популярности проблема – это использование перенаправления для того, чтобы сменить главного зеркала в уже имеющейся группе зеркал. Что происходит? Старый адрес, поскольку осуществляет перенаправление, роботом не индексируется, исключается из поисковой выдачи. При этом новый сайт в поиск не попадает, поскольку является неглавным зеркалом. Вы теряете трафик, теряете посетителей, я думаю, что это никому не нужно.


И третья проблема – это недоступность одного из зеркал при переезде. Самый распространенный пример в этой ситуации, когда скопировали контент сайта на новый адрес, а старый адрес просто отключили, не оплатили доменное имя и он стал недоступен. Естественно такие сайты склеены не будут, они обязательно должны быть доступны для индексирующего робота.

Полезные ссылки в работе:

  • Больше полезной информации вы найдете в сервисе Яндекс.Помощь .
  • Все инструменты, о которых я говорил и даже больше – есть бета-версия Яндекс.Вебмастера .

Ответы на вопросы

«Спасибо за доклад. Нужно ли в robots.txt закрывать индексацию CSS-файлов для робота или нет?».

На текущий момент мы не рекомендуем закрывать их. Да, CSS, JavaScript лучше оставить, потому что сейчас, мы работаем над тем, чтобы индексирующий робот начал распознавать и скрипты на вашем сайте, и стили, видеть, как посетитель из обычного браузера.

«Подскажите, а если url’ы адресов сайта будут одинаковые, у старого и у нового – это нормально?».

Да, ничего страшного. По сути, у вас просто обновление дизайна, добавление какого-то контента.

«На сайте есть категория и она состоит из нескольких страниц: слеш, page1, page2, до 10-ти, допустим. На всех страницах один текст категории, и он, получается, дублирующий. Будет ли этот текст являться дубликатом или нужно его как-то закрывать, новый индекс на вторых и далее страницах?».

Прежде всего, поскольку на первой странице пагинации, а на второй странице контент, в целом-то, отличаются, они дублями не будут. Но нужно рассчитывать, что вторая, третья и дальше страницы пагинации могут попасть в поиск и показывать по какому-либо релевантному запросу. Лучше в страницах пагинации я бы рекомендовал использовать атрибут canonical, в самом лучшем случае – на странице, на которой собраны все товары для того, чтобы робот не включал страницы пагинации в поиске. Люди очень часто используют canonical на первую страницу пагинации. Робот приходит на вторую страницу, видит товар, видит текст, страницы в поиск не включает и понимает за счет атрибута, что надо включать в поисковую выдачу именно первую страницу пагинации. Используйте canonical, а сам текст закрывать, думаю, что не нужно.

Источник (видео): Как настроить индексирование сайта - Александр Смирнов

Магомед Чербижев

Поделиться:

Довольно часто новый сайт не получается найти в Яндексе. Даже если набрать в поисковой строке его название. Причины этого могут быть разные. Иногда поисковики просто еще не знают о том, что появился новый ресурс. Чтобы разобраться, в чём дело и решить проблему, нужно зарегистрировать сайт в Яндекс Вебмастере.

Что такое индексация сайта в Яндексе

Сначала разберёмся, как поисковики вообще узнают о новых сайтах или изменениях на них. У Яндекса есть специальная программа, которая называется поисковым роботом. Этот робот гуляет по интернету и ищет новые страницы. Иногда он заходит на старые - проверяет, не появилось ли на них что-то новое.

Когда робот находит полезную страницу, он добавляет её в свою базу данных. Эта база называется поисковым индексом. Когда мы ищем что-то в поиске, мы видим сайты из этой базы. Индексирование - это когда робот добавляет туда новые документы.

Робот не может каждый день обходить весь интернет. Ему на это не хватит мощности. Поэтому ему нужно помогать - сообщать о новых страницах или изменениях на старых.

Что такое Яндекс Вебмастер и зачем он нужен

Яндекс.Вебмастер - это официальный сервис от Яндекса. В него нужно добавить сайт, чтобы робот узнал о его существовании. С его помощью владельцы ресурсов (веб-мастера) могут доказать, что это именно их сайт.

Ещё в Вебмастере можно посмотреть:

  • когда и куда заходил робот;
  • какие страницы он проиндексировал, а какие - нет;
  • по каким ключевым словам приходят люди из поиска;
  • есть ли технические ошибки.

Через этот сервис можно настроить сайт: задать регион, цены товаров, защитить свои тексты от воровства. Можно попросить робота заново зайти на страницы, на которых вы внесли изменения. Яндекс Вебмастер упрощает переезд на https или другой домен.

Как добавить новый сайт в Яндекс Вебмастер

Зайдите в панель Вебмастера . Нажмите «Войти». Логин и пароль можно ввести те, которые вы используете для входа на почту Яндекса. Если у вас еще нет учетной записи, придётся зарегистрироваться.

После входа вы попадёте на страницу со списком добавленных ресурсов. Если вы ранее не пользовались сервисом, то список будет пуст. Для добавления нового ресурса нажмите кнопку «+».

На следующей странице введите адрес вашего сайта и подтвердите его добавление.

На последнем этапе нужно подтвердить права - доказать Яндексу, что вы являетесь владельцем. Есть несколько способов это сделать.

Как подтвердить права на сайт в Яндекс Вебмастер

Самый простой способ подтверждения прав в Яндекс Вебмастер - добавить файл на сайт. Для этого нажмите на вкладку «HTML-файл».

Скачается небольшой файл. Этот файл сейчас понадобится, поэтому сохраните его куда-нибудь на видное место. Например, на Рабочий стол. Не переименовывайте файл! В нём ничего менять не нужно.

Теперь загрузите этот файл на ваш сайт. Обычно для этого используют файловые менеджеры, но для пользователей InSales ничего этого делать не нужно. Просто зайдите в бэк-офис, нажмите «Файлы». Затем наверху страницы - «Добавить файл». Выберите скачанный ранее файл.

Затем вернитесь в панель Яндекс.Вебмастер и нажмите кнопку «Проверить». После успешного подтверждения прав доступа ваш сайт появится в списке добавленных. Таким образом, вы сообщили в Яндекс Вебмастер о новом сайте.

Мета тег Яндекс Вебмастер

Иногда описанный выше способ не срабатывает, и владельцы не могут подтвердить права на сайт в Вебмастере. В таком случае можно попробовать другой способ: добавить строку кода в шаблон.

В Вебмастере перейдите на вкладку «Мета-тег». Вы увидите строчку, которую нужно добавить в HTML-код.

Пользователи InSales могут обратиться в техподдержку и попросить вставить этот код. Это будет выполнено в рамках бесплатной доработки.

Когда они сделают это, в Вебмастере нажмите кнопку «Проверить». Поздравляем, вы зарегистрировали сайт в поисковике!

Предварительная настройка Яндекс Вебмастер

Сайт добавлен в поиск, теперь робот точно зайдёт к вам и проиндексирует его. Обычно это занимает до 7 дней.

Добавьте ссылку на sitemap

Для того чтобы робот быстрее индексировал ресурс, добавьте в Вебмастер файл sitemap.xml. В этом файле содержатся адреса всех страницах ресурса.

У интернет-магазинов на InSales этот файл уже настроен и должен добавляться в Вебмастер автоматически. Если этого не произошло, добавьте ссылку на sitemap.xml в разделе «Индексирование» - «Файлы Sitemap».

Проверьте robots.txt

В файле robots.txt указывают страницы, на которые роботу заходить не нужно. Это корзина, оформление заказа, бэк-офис и другие технические документы.

InSales по умолчанию создаёт robots.txt, в который не нужно вносить изменения. На всякий случай рекомендуем проверить, нет ли ошибок в роботс. Для этого зайдите в «Инструменты» - «Анализ robots.txt».

Задайте регион сайта

На странице «Информация о сайте» - «Региональность» вы можете задать регион сайта. Для интернет-магазинов это те города, регионы и страны, по которым доставляются купленные товары. Если у вас не магазин, а справочник или блог, то регионом будет весь мир.

Задайте регион продаж как показано на скриншоте:

Чем ещё полезен Вебмастер?

На странице «Поисковые запросы» можно видеть фразы, по которым попадают к вам из поиска.

В разделе «Индексирование» выводится информация о том, когда робот был на сайте и сколько страниц он нашёл. Подраздел «Переезд сайта» поможет вам, если вы решили установить и перейти на https. Также крайне полезен подраздел «Переобход страниц». В нём вы можете указать роботу страницы, на которых изменилась информация. Тогда при следующем визите робот проиндексирует их в первую очередь.

На странице «Товары и Цены» раздела «Информация о сайте» можно предоставить информацию о вашем интернет-магазине. Для этого на ресурсе должна быть настроена выгрузка данных о товарах и ценах в формате YML. При правильной настройке в поисковой выдаче страниц товаров будут отображаться цены и информация о доставке.

Если вы хотите улучшить видимость вашей компании в сервисах Яндекса, следует воспользоваться разделом «Полезные сервисы». В Яндекс.Справочнике можно указать телефон и адрес вашего магазина, часы работы. Эта информация будет отображаться прямо в выдаче Яндекса. Также это добавит вас на Яндекс.Карты.

Яндекс.Метрика — еще один важный инструмент владельца интернет-ресурса, показывающий данные о посещаемости. Статистика и динамика посещаемости сайта отображается в удобных для анализа таблицах, диаграммах и графиках.

После подключения к сервисам Яндекс.Вебмастер и Яндекс.Метрика вы будете получать достаточное количество информации для управления позициями сайта и его посещаемостью. Это незаменимые инструменты для владельцев сайтов, желающих продвинуть свои ресурсы в самом популярном в России поисковике.

Следующий шаг в продвижении сайта - через аналогичный сервис Search Console.

Каждый вебмастер знает, что для того чтобы на его ресурс начали заходить люди с поисковых систем, необходима его индексация. О том, что из себя представляет индексация сайта, как она проводится, и в чем заключается ее смысл, мы расскажем в данной статье.

Что такое индексация?

Итак, слово «индексация» само по себе означает внесение в реестр чего-либо, перепись материалов, которые имеются в наличии. Этот же принцип применяется и к индексации сайтов. По сути, этот процесс можно назвать также внесением информации об интернет-ресурсах в базу данных поисковых систем.

Таким образом, как только пользователь будет вбивать очередную фразу в поисковое поле Google, скрипт будет возвращать ему результат, включающий заголовок вашего сайта и его краткое описание, которое мы видим ниже.

Как осуществляется индексация?

Сама индексация («Яндекс» это, или Google - роли не играет) проходит довольно просто. Всю паутину интернет, ориентируясь на базу ip-адресов, которая есть у поисковиков, сканируют мощные роботы - «пауки», собирающие информацию о вашем сайте. Их у каждой из поисковых систем огромное количество, а работают они в автоматическом режиме 24 часа в сутки. Их задача - зайти на ваш сайт и «прочесть» весь контент на нем, занеся при этом данные в базу.

Следовательно, в теории индексация сайта мало зависит от владельца ресурса. Решающим фактором здесь является который заходит на сайт и исследует его. Именно это и влияет на то, как быстро ваш сайт появится в поисковой выдаче.

Сроки индексации?

Разумеется, каждому вебмастеру выгодно, чтобы его ресурс появился в поисковой выдаче как можно быстрее. Это будет влиять, во-первых, на сроки вывода сайта на первые позиции, а, во-вторых, на то, когда начнутся первые этапы монетизации сайта. Таким образом, чем раньше поисковый робот «скушает» все страницы вашего ресурса, тем лучше.

Каждая имеет свой алгоритм внесения данных о сайтах в свою базу. Например, индексация страниц в «Яндекс» осуществляется поэтапно: роботы сканируют сайты постоянно, затем упорядочивают информацию, после чего проходит так называемый «апдейт», когда все изменения вступают в силу. Регулярность таких событий компанией не устанавливается: они проводятся раз в 5-7 дней (как правило), однако могут совершаться и за 2, и за 15 суток.

При этом индексация сайта в Google идет по другой модели. В этой поисковой системе такие «апдейты» (обновления базы) проходят регулярно, в связи с этим ждать каждый раз, пока роботы занесут информацию в базу, а затем она будет упорядочена раз в несколько суток, не нужно.

На основе вышесказанного, можем сделать следующий вывод: страницы в «Яндекс» добавляются через 1-2 «апдейта» (то есть за 7-20 дней в среднем), а в Google это может произойти гораздо быстрее - буквально за сутки.

При этом, разумеется, у каждой поисковой машины есть свои особенности того, как проводится индексация. «Яндекс», например, имеет так называемого «быстробота» - робота, который может вносить данные в выдачу за несколько часов. Правда, сделать так, чтобы он зашел на ваш ресурс, непросто: это касается преимущественно новостей и разных громких событий, развивающихся в режиме реального времени.

Как попасть в индекс?

Ответ на вопрос о том, как занести данные о своем сайте в индекс поисковиков, одновременно и прост, и сложен. Индексация страниц - это явление естественное, и если вы даже не задумываетесь о ней, а просто, скажем, ведете свой блог, постепенно наполняя его информацией - поисковые механизмы со временем отлично «проглотят» ваш контент.

Другое дело - это когда вам нужно ускорить индексацию страницы, например, если у вас сеть так называемых «сателлитов» (сайтов, рассчитанных на продажу ссылок или размещение рекламы, качество которых, как правило, хуже). В таком случае необходимо принимать меры для того, чтобы роботы заметили ваш сайт. Общераспространенными считаются следующие: добавление URL-адреса сайта в специальную форму (называется она «AddUrl»); прогон адреса ресурса по каталогам ссылок; добавление адреса в каталоги закладок и много другого. О том, как работает каждый из этих методов, ведутся многочисленные дискуссии на SEO-форумах. Как показывает практика, каждый случай уникальный, и более точно найти причины того, почему один сайт проиндексировался за 10 дней, а другой - за 2 месяца, сложно.

Как ускорить попадание в индекс?

Тем не менее, логика, с помощью которой можно сделать так, чтобы сайт попал в индекс быстрее, основывается на на него. В частности, речь идет о простановке URL на бесплатных и общедоступных сайтах (закладки, каталоги, блоги, форумы); о покупке ссылок на крупных и раскрученных сайтах (с помощью биржи Sape, например); а также о добавлении в форму addURL. Возможно, есть и другие методы, однако те, что уже были перечислены, можно с уверенностью назвать самыми популярными. Напомним, в целом же все зависит от сайта и везения его владельца.

Какие сайты попадают в индекс?

Согласно официальной позиции всех поисковых систем, в индекс попадают сайты, которые проходят ряд фильтров. Какие требования содержат последние, не знает никто. Известно лишь, что с течением времени все они совершенствуются таким образом, чтобы отсеивать псевдосайты, созданные для заработка на продаже ссылок и прочие ресурсы, не несущие полезной информации для пользователя. Разумеется, для создателей этих сайтов главной задачей является индексация страниц в как можно большем объеме (чтобы привлечь посетителей, продать ссылки и так далее).

Какие ресурсы поисковики банят?

Базируясь на предыдущей информации, можно сделать вывод о том, какие сайты, скорее всего, не попадут в поисковую выдачу. Та же информация озвучивается и официальными представителями поисковых систем. В первую очередь это сайты, содержащие неуникальный, генерированный автоматически контент, который не является полезным для посетителей. Далее следуют ресурсы, в которых минимум информации, созданные для продажи ссылок и так далее.

Правда, если проанализировать выдачу поисковых систем, то в ней можно найти все эти сайты. Поэтому, если говорить о сайтах, которые не будут присутствовать в выдаче, следует отмечать не только неуникальный контент, а еще и ряд других факторов - множество ссылок, неправильно организованная структура и так далее.

Скрываем контент. Как запретить индексацию страницы?

Поисковые системы сканируют весь контент, находящийся на сайте. Однако существует методика, с помощью которой можно ограничить доступ поисковых роботов к тому или иному разделу. Делается это с использованием файла robots.txt, на который и реагируют «пауки» поисковых систем.

Если в корне сайта поместить этот файл, будет проходить по сценарию, который прописан в нем. В частности, можно запретить индексацию с помощью единственной команды - Disallow. Помимо нее, в файле можно указывать еще и разделы сайта, на которые этот запрет будет распространяться. К примеру, для запрета вхождения в индекс всего сайта, достаточно указать один слэш «/»; а чтобы исключить из выдачи раздел «shop», достаточно указать такую характеристику в своем файле: «/shop». Как видите, все логично и предельно просто. Индексация страниц закрывается очень легко. При этом поисковые роботы заходят на вашу страничку, читают robots.txt и не вносят данные в базу. Так можно легко манипулировать, чтобы видеть в поиске те или иные характеристики сайтов. Теперь поговорим о том, как проверяется индекс.

Как можно проверить индексацию страницы?

Существует несколько способов узнать то, сколько и какие страницы присутствуют в базе «Яндекс» или Google. Первый - самый простой - это задать соответсвующий запрос в поисковую форму. Выглядит он так: site:domen.ru, где вместо домен.ру вы прописываете, соответственно, адрес вашего сайта. Когда вы сделаете такой запрос, поисковик покажет все результаты (страницы), расположенные по указаному URL. Причем, помимо простого перечисления всех страниц, вы можете также видеть общее число проиндексированного материала (справа от фразы «Количество результатов»).

Второй способ - это проверить индексацию страницы, используя специализированные сервисы. Их сейчас большое количество, навскидку можно назвать xseo.in и cy-pr.com. На таких ресурсах можно не только увидеть общее число страниц, но и определить качество некоторых из них. Однако это нужно вам лишь в том случае, если вы более углубленно разбираетесь в данной теме. Как правило, это профессиональные SEO-инструменты.

О «принудительной» индексации

Еще хотелось бы немного написать о так называемой «принудительной» индексации, когда человек различными «агрессивными» методами пытается загнать свой сайт в индекс. Делать этого оптимизаторы не рекомендуют.

Поисковые системы как минимум, заметив чрезмерную активность, связанную с новым ресурсом, могут ввести в действие какие-то санкции, негативно сказывающиеся на состоянии сайта. Поэтому лучше делать все так, чтобы индексация страниц выглядела как можно более органичной, постепенной и плавной.

Индексация сайта в поисковых системах важна для каждого вебмастера. Ведь для качественного продвижения проекта следует следить за его индексацией. Я опишу процесс проверки индексации в Яндексе.

Индексация в Яндекс

Робот Яндекса день за днем просматривает сайты в поисках чего-нибудь «вкусненького». Собирает в топ выдачи те сайты и страницы, которые, по его мнению, наиболее этого заслуживают. Ну или просто Яндекс так захотел, кто его знает

Мы, как настоящие вебмастера, будем придерживаться теории, что чем качественнее сделан сайт, тем выше его позиции и больше трафик.

Проверить индексацию сайта в Яндексе можно несколькими способами:

  • с помощью Яндекс Вебмастера;
  • с использованием операторов поисковой системы;
  • с помощью расширений и плагинов;
  • с помощью онлайн-сервисов.

Индексация страниц сайта в Яндекс Вебмастер

Чтобы понять, что же там поисковик накопал на наш сайт, нужно зайти в наш любимый Яндекс Вебмастер в раздел «Индексирование».

Статистика обхода в Яндекс Вебмастер

Для начала зайдем в пункт «Статистика обхода». Раздел позволяет узнать, какие страницы вашего сайта обходит робот. Вы можете выявить адреса, которые робот не смог загрузить из-за недоступности сервера, на котором находится сайт, или из-за ошибок в содержимом самих страниц.

Раздел содержит информацию о страницах:

  • новые — страницы, которые недавно появились на сайте либо робот их только что обошел;
  • изменившиеся — страницы, который поисковик Яндекса раньше видел, но они изменились;
  • история обхода — количество страниц, которые обошел Яндекс с учетом кода ответа сервера (200, 301, 404 и прочие).

На графике отражены новые (зеленый цвет) и изменившиеся (синий цвет) страницы.

А это график истории обхода.

В этом пункте отображены страницы, которые Яндекс нашел.

N/a — URL не известен роботу, т.е. робот её раньше не встречал.

Какие выводы из скрина можно сделать:

  1. Яндекс не нашел адрес /xenforo/xenforostyles/, что, собственно, логично, т.к. этой страницы больше нет.
  2. Яндекс нашел адрес /bystrye-ssylki-v-yandex-webmaster/, что тоже вполне логично, т.к. страница новая.

Итак, в моем случае в Яндекс Вебмастере отражено то, что я и ожидал увидеть: что не надо — Яндекс удалил, а что надо — Яндекс добавил. Значит с обходом все у меня хорошо, блокировок никаких нет.

Страницы в поиске

Поисковая выдача постоянно меняется — добавляются новые сайты, удаляются старые, корректируются места в выдаче и так далее.

Информацию в разделе «Страницы в поиске» вы можете использовать:

  • для отслеживания изменений количества страниц в Яндексе;
  • для слежения за добавленными и исключенными страницами;
  • для выяснения причин исключения сайта из поисковой выдачи;
  • для получения информации о дате посещения сайта поисковиком;
  • для получения информации об изменении поисковой выдачи.

Чтобы проверить индексацию страниц и нужен этот раздел. Здесь Яндекс Вебмастер показывает страницы, добавленные в поисковую выдачу. Если все ваши страницы добавлены в раздел (новый добавятся в течение недели), то значит со страницами все в порядке.

Проверка количества страниц в индексе Яндекса с помощью операторов

Помимо Яндекс Вебмастера проверить индексацию страницы можно с помощью операторов непосредственно в самом поиске.

Будем использовать два оператора:

  • «site» — поиск по всем поддоменам и страницам указанного сайта;
  • «host» — поиск по страницам, размещенным на данном хосте.

Воспользуемся оператором «site». Заметьте, между оператором и сайтом нет пробела. 18 страниц находится в поиске Яндекса.

Воспользуемся оператором «host». 19 страниц проиндексировано Яндексом.

Проверка индексации с помощью плагинов и расширений

Проверить индексацию сайта с помощью сервисов

Таких сервисов очень много. Я покажу вам два.

Serphunt

Serphunt — онлайн-сервис для анализа сайта. У них есть полезный инструмент для проверки индексации страниц.

Одновременно можно проверить до 100 страниц сайта по двум поисковикам — Яндекс и Google.

Нажимаем «Начать проверку» и через несколько секунд получаем результат: