Что такое дубли страниц?
Дублированными называются веб-страницы сайта с одинаковым контентом.
В большинстве случаев, данное утверждение будет верно, так как появляются такие страницы по неопытности начинающих веб-мастеров или из-за допущенных ошибок уже опытных специалистов. Например, если разработчик web-сайта мало внимания уделил работе по приведению URL-адресов страниц в единообразный вид. Главное правило - на веб-сайте должен быть «армейский порядок» и единообразие.
Часто встречающиеся варианты дублирования контента на сайте:
1. Полные дубли веб-страниц
Такой вариант дублирования контента появляется на web-сайте, как правило, по недосмотру и неопытности. Роботы поисковых систем к данной ситуации относятся крайне негативно, поэтому стоит обратить на это особое внимание, несмотря ее на кажущуюся несерьезность.
Особенности полных дубликатов страниц:
- контент web-страницы дублирован полностью на 100% (HTML-код повторяется целиком);
- наиболее нелюбимы поисковиками (фильтры систем поиска настроены жестко, применяемые к ресурсу санкции весьма тяжелы, вплоть до бана сайта (например, за выявленный дубликат главной странички ресурса);
- такие дубли легко обнаруживаются (достаточно просмотреть список проиндексированных страниц, например, в Вебмастер-Яндекс. Они, как правило, имеют одинаковый сниппет и заголовок);
- они легко устраняются (в большинстве случаев, достаточно минимальных базовых знаний).
2. Дубли служебных страниц
Дубль может быть полным, может быть частичным.
Опознание «служебных» дубликатов:
- доля одинакового контента хоть и не стопроцентная, но внушительная;
- основной текст зачастую выводится весь, различаются страницы только HTML-обрамлением и отсутствием/присутствием ссылок главного меню, дополнительных блоков, подвала и т.п.
Разработчик проекта легко найдет подобные проблемные места и примет необходимые меры непосредственно в процессе программирования и настройки системы управления контентом (сайтом).
Где искать «служебные» дубли:
- версия для печати (самая распространенная ошибка - не закрыть данную страницу от индексации, и на веб-сайте появляются две одинаковые странички);
- неудачно реализованная настройка темы дизайна web-сайта (не через профиль пользователя, а ссылками с GET-параметрами вида «?theme=mega_design_3», например, в шапке ресурса);
- странички различных режимов вывода информации (например, сортировка записей в блоге по дате публикации).
Чтобы избежать неприятностей связанных с дублированием, следует запретить роботам поисковых систем посещать данные проблемные места.
Первый способ - принудительно запретить индексирование этих веб-страниц.
Второй способ - сделать так, чтобы поисковые роботы просто не посещали такие странички. Например, смену дизайна веб-сайта можно организовать с помощью формы с методом запроса «POST» и последующим редиректом, или воспользоваться JavaScript.
3. Частичные дубли
Эта проблема часто встречается на блоговых и информационных ресурсах, а также интернет-магазинах. Как правило, это дублирование отдельных фрагментов текста.
Характерные черты частичного дублирования:
- трудно обнаружить (при автоматизации всех процессов часто можно не заметить данную проблему);
- мешают правильному ранжированию веб-страниц (возможно применение фильтров с понижением в результатах поисковой выдачи).
Негативное влияние дубликатов страниц на процесс продвижения сайта
Несмотря на то, что многие веб-мастера на появление дублирующих страничек не обращают особого внимания, эта ситуация может создать серьезные проблемы при раскрутке веб-сайта.
Роботы систем поиска могут расценить дубли веб-страниц сайта как спам, и принудительно в худшую сторону изменить позиции в поисковой выдаче, как этих web-страниц, так и ресурса в целом.
При ссылочном продвижении отдельной странички web-сайта может возникнуть следующая ситуация. При неудачном стечение различных обстоятельств поисковик оценит дубль как наиболее релевантную страницу, а страничку-первоисточник, которая продвигается ссылками «опустит» в выдаче. В этом случае финансовые затраты и усилия будут напрасны.
Методы обнаружения дублей страниц сайта:
1. Посредством поисковых систем.
Для этого в строке поиска Google или Яндекс следует ввести команду вида site:name.ru, где name.ru – доменное имя сайта. Система поиска выдаст список проиндексированных страниц веб-сайта, и вашей задачей будет визуально обнаружить возможные дубликаты.
Кроме того, можно воспользоваться инструментами Яндекс-Вебмастер и Google Webmaster Tools для проверки состояния индексации веб-страниц сайта.
2. Поиск по фрагментам текста.
В данном случае необходимо в поисковую строку вставить небольшой фрагмент текста с конкретной веб-страницы (например, большой абзац целиком). Если в выдаче будут отображены две или более ссылок на разные странички веб-сайта, то это дубли.
3. С помощью специальных программ.
Из наиболее распространенных программ для таких целей - Xenu Link Sleuth. Она является бесплатной и ее легко можно найти и скачать в интернете. Однако программа англоязычная, но разобраться в ее работе сможет каждый.