Crawling …Ничего, пройдет и по нашей улице инкассатор
Прочитав интересную статью на замечательном ресурсе, о том, как заставить Google индексировать блог за 24 часа, скорее берусь за перо и спешу дополнить прочитанное из собственного опыта!
Вне зависимости от мнений и индивидуальных предпочтений нет такого блоггера или сайтостроителя на Земле, который не хочет, чтобы Google оперативно проиндексировал его ресурс, хотя на арене выступают и другие конкурентоспособные игроки: Yahoo, Bing и Яндекс. Но сейчас меня интересует Google. Начнем с основ!
Итак, программа робот или бот, которая зовется пауком (спайдер) составляет список слов, которые он находит на сайте. Этот процесс называется кравлинг (crawling). Спайдеры обходят веб страницу и просматривают то, что там найдут. Они также следуют по линкам, найденным на сайте, которые позволяют спайдерам быстро перемещаться по ресурсу.
Результат индексирования зависит от времени, проведенного спайдером на сайте. Алгоритм работы Google позволяет вычислить это время.
Далее все нижеизложенное возможно не будет открытием для SEO гуру, но всем остальным обязательно пригодиться. Каждый пункт по отдельности может не принести желаемых результатов, а вот все вместе они могут стать мощным оружием на пути к быстрой индексации сайта!
1. Необходимо создать хорошую архитектуру сайта и структуру линков.
Один или два клика по любой странице. Если спайдеру придется долго добираться до нее, то есть шанс, что она не будет проиндексирована.
2. Стараться не использовать динамических адресов.
Одна из проблем, которая может произойти с динамическим адресом, это то, что спайдер может запутаться в куче параметров, которые в изобилии присутствуют в динамическом URL, и попадет в петлю (loop). Динамичские адреса хороши для тракинга и, если так необходимо их использовать, то не забывайте использовать mod_rewrite .
И еще. Не используйте в URL знак (_), используйте (-). Потому что в первом случае спайдер прочтет его, как одно слово.
3. Дублированный контент.
Ну, об этом даже не стоит говорить, но все же. Пост не должен быть приписан двум или нескольким категориям. Это расматривается спайдером как дубликат. Ну, а если такое случается, то лучше использовать 301 редирект.
4. XML sitemap, однозначно нужно делать апдейт.
5. Сео тактика на каждой странице
А. Использование киворд в названии статьи.
Б. Использование H1 тегов.
В. Г. Д. и т.д и т.п.
6. Убедитесь, что ваш сайт, ваша страница, которую бы хотелось быстро проиндексировать, загружается быстро.
Здесь есть прямая взаимосвязь между временем загрузки страницы и общим числом страниц, которые спайдер просмотрел в этот день. Причем просмотрел и проиндексировал – это две разные вещи, о которых поговорим в другой раз.
7. Будьте аккуратны, если вы используете Flash.
8. Создайте свою 404 страницу.
Если спайдер наткнется на page not found и не найдет на ней линка, чтобы уйти на другую вашу страницу, то он просто покинет сайт.
9. Добавьте сайт в Google Webmaster Tools.
Google даст вам знать, если что-то не в порядке.
10. Не прячьте ничего за логинами, если вы хотите чтобы контент был увиден спайдером.
11. Не требуйте, чтобы куки или ID сессии были включены.
Наши друзья – спайдеры не имеют возможности обойти этот запрет.
Предлагаю продолжить разговор об индексации. 16 советов уже есть. Пишите о своих. Удачи.
No related posts.


[...] Crawling ..Ничего, пройдет и по нашей улице инкассатор [...]
Полезно. И прикольное название для поста про то как заставить Google быстрее индексировать сайт
CyberMax, надеюсь Вы для себя найдете еще много полезного на этом блоге. В любом случае, если заинтересует какая -то тематика – милости прошу, стучите в контакты или оставляйте коммент, напременно освещу интересующие вопросы!
Да уж… Тут как говорится: Артель воюет, а один горюет
Красота — это в общем-то гениальность, даже больше, чем гениальность, ибо она в объяснении не нуждается.