Дубли страниц на сайте и методы их обнаружения

Что такое дубли страниц?

 

Дублированными называются веб-страницы сайта с одинаковым контентом.

В большинстве случаев, данное утверждение будет верно, так как появляются такие страницы по неопытности начинающих веб-мастеров или из-за допущенных ошибок уже опытных специалистов. Например, если разработчик web-сайта мало внимания уделил работе по приведению URL-адресов страниц в единообразный вид. Главное правило - на веб-сайте должен быть «армейский порядок» и единообразие.

 

Часто встречающиеся варианты дублирования контента на сайте:

 

1. Полные дубли веб-страниц

 

Такой вариант дублирования контента появляется на web-сайте, как правило, по недосмотру и неопытности. Роботы поисковых систем к данной ситуации относятся крайне негативно, поэтому стоит обратить на это особое внимание, несмотря ее на кажущуюся несерьезность.

 

Особенности полных дубликатов страниц:

- контент web-страницы дублирован полностью на 100% (HTML-код повторяется целиком);

- наиболее нелюбимы поисковиками (фильтры систем поиска настроены жестко, применяемые к ресурсу санкции весьма тяжелы, вплоть до бана сайта (например, за выявленный дубликат главной странички ресурса);

- такие дубли легко обнаруживаются (достаточно просмотреть список проиндексированных страниц, например, в Вебмастер-Яндекс. Они, как правило, имеют одинаковый сниппет и заголовок);

- они легко устраняются (в большинстве случаев, достаточно минимальных базовых знаний).

 

2. Дубли служебных страниц

 

Дубль может быть полным, может быть частичным.

 

Опознание «служебных» дубликатов:

- доля одинакового контента хоть и не стопроцентная, но внушительная;

- основной текст зачастую выводится весь, различаются страницы только HTML-обрамлением и отсутствием/присутствием ссылок главного меню, дополнительных блоков, подвала и т.п.

 

Разработчик проекта легко найдет подобные проблемные места и примет необходимые меры непосредственно в процессе программирования и настройки системы управления контентом (сайтом).

 

Где искать «служебные» дубли:

- версия для печати (самая распространенная ошибка - не закрыть данную страницу от индексации, и на веб-сайте появляются две одинаковые странички);

- неудачно реализованная настройка темы дизайна web-сайта (не через профиль пользователя, а ссылками с GET-параметрами вида «?theme=mega_design_3», например, в шапке ресурса);

- странички различных режимов вывода информации (например, сортировка записей в блоге по дате публикации).

 

Чтобы избежать неприятностей связанных с дублированием, следует запретить роботам поисковых систем посещать данные проблемные места.

Первый способ - принудительно запретить индексирование этих веб-страниц.

Второй способ - сделать так, чтобы поисковые роботы просто не посещали такие странички. Например, смену дизайна веб-сайта можно организовать с помощью формы с методом запроса «POST» и последующим редиректом, или воспользоваться JavaScript.

 

3. Частичные дубли

 

Эта проблема часто встречается на блоговых и информационных ресурсах, а также интернет-магазинах. Как правило, это дублирование отдельных фрагментов текста.

 

Характерные черты частичного дублирования:

- трудно обнаружить (при автоматизации всех процессов часто можно не заметить данную проблему);

- мешают правильному ранжированию веб-страниц (возможно применение фильтров с понижением в результатах поисковой выдачи).

 

Негативное влияние дубликатов страниц на процесс продвижения сайта

 

Несмотря на то, что многие веб-мастера на появление дублирующих страничек не обращают особого внимания, эта ситуация может создать серьезные проблемы при раскрутке веб-сайта.

Роботы систем поиска могут расценить дубли веб-страниц сайта как спам, и принудительно в худшую сторону изменить позиции в поисковой выдаче, как этих web-страниц, так и ресурса в целом.

При ссылочном продвижении отдельной странички web-сайта может возникнуть следующая ситуация. При неудачном стечение различных обстоятельств поисковик оценит дубль как наиболее релевантную страницу, а страничку-первоисточник, которая продвигается ссылками «опустит» в выдаче. В этом случае финансовые затраты и усилия будут напрасны.

 

Методы обнаружения дублей страниц сайта:

 

1. Посредством поисковых систем.

Для этого в строке поиска Google или Яндекс следует ввести команду вида site:name.ru, где name.ru – доменное имя сайта. Система поиска выдаст список проиндексированных страниц веб-сайта, и вашей задачей будет визуально обнаружить возможные дубликаты.

Кроме того, можно воспользоваться инструментами Яндекс-Вебмастер и Google Webmaster Tools для проверки состояния индексации веб-страниц сайта.

 

2. Поиск по фрагментам текста.

В данном случае необходимо в поисковую строку вставить небольшой фрагмент текста с конкретной веб-страницы (например, большой абзац целиком). Если в выдаче будут отображены две или более ссылок на разные странички веб-сайта, то это дубли.

 

3. С помощью специальных программ.

Из наиболее распространенных программ для таких целей - Xenu Link Sleuth. Она является бесплатной и ее легко можно найти и скачать в интернете. Однако программа англоязычная, но разобраться в ее работе сможет каждый.

Дубли страниц на сайте (www.Avacym.Ru)