Як працює пошуковий робот Google: результати експериментів (Частина 2, 3)

Частина 2. Краулінговий бюджет

Краулінговий бюджет – це певний обсяг сторінок, який пошуковий робот Google може просканувати за один раз.

Коли польський спеціаліст Max Cyrec продумував свою SEO-стратегію, він хотів змусити Googlebot підкорятися йому. Він перевіряв SEO-процеси на рівні серверних логів, що йому дуже допомогло. Завдяки цьому Cyrec знав про найменші рухи бота, і як він реагував на зміни – реструктуризацію сайту, повну переробку внутрішньої перелінківки, відображення інформації.

Одним із завдань протягом SEO-кампанії було перебудувати сайт так, щоб Googlebot відвідував тільки ті посилання, які він може проіндексувати і які ми б хотіли бачити проіндексованими. Тобто, в індексі Google повинні бути тільки ті сторінки, які важливі нам з точки зору SEO. З іншого боку, Googlebot повинен переглядати тільки ті сайти, які ми хочемо проіндексувати. Це очевидно не всім, наприклад, коли інтернет-магазин впроваджує фільтрацію за кольорами, розміром і цінами за допомогою маніпуляцій з параметрами посилання:

example.com/women/shoes/?color=red&size=40&price=200-250

Може виявитися, що рішення, яке дозволяє Googlebot переглядати динамічні посилання, змушує його присвячувати час їх ретельній перевірці та індексації, замість звичайного перегляду.

example.com/women/shoes/

Такі динамічні посилання не тільки не приносять користі, але і потенційно шкідливі для SEO. Це тому, що їх можна помилково сприйняти як малокорисний контент. Це може привести до того, що позиції сайту впадуть.

Під час експерименту Max Cyrec також хотів перевірити методи структуризації контенту без використання rel = “nofollow”. Для цього він блокував Googlebot в файлі robots.txt або розміщував частину HTML-коду в фреймах, які невидимі для бота.

Max протестував 3 види JavaScript посилань.

Посилання JavaScript з подією при натисканні

Просте посилання, створене на JavaScript:

<A href = “javascript: void (0)” onclick = “window.location.href = ‘page4.html'”> anchor6 </ a>

Googlebot легко перейшов на сторінку page4.html і проіндексував цілу сторінку. Підсторінка не ​​ранжирується в результатах пошуку за фразою anchor6, і її не можна знайти в розділі Anchor Texts в Google Search Console. Висновок: посилання не передало вагу.

Підсумки:

  • Класичне посилання JavaScript дозволяє Google переглядати сайт і індексувати сторінки, на які він приходить.
  • Посилання не передає вагу – воно нейтральне.

Посилання Javascript з внутрішньою функцією

Cyrec вирішив підняти ставки, але на його подив Googlebot подолав перешкоду менше, ніж за 2 години після публікації посилання.

<A href = “javascript: void (0)” class = “js-link” data-url = “page9.html”> anchor7 </ a>

Щоб керувати цим посиланням, він використовував зовнішню функцію. Ця функція повинна була зчитувати посилання з даних і редиректу – тільки з редиректу користувача на цільову сторінку page9.html, як він сподівався. Як і в попередніх випадках, сторінка page9.html повністю проіндексувалася.

Цікаво те, що незважаючи на брак вхідних посилань сторінка page9.html була третьою за популярністю у Googlebot після сторінок page1.html і page2.html.

Max використовував цей метод раніше для структуризації веб-сервісів. Однак, він більше не працює. В SEO ніщо не працює вічно.

Посилання JavaScript з кодуванням

Спеціаліст не збирався здаватися і вирішив, що зможе взяти верх над Googlebot. Тому він побудував просту функцію, кодуючи дані алгоритмом base64, і відсилання виглядало так:

<A href = “javascript: void (0)” class = “js-link” data-url = “cGFnZTEwLmh0bWw =”> anchor8 </ a>

В результаті Googlebot не зміг згенерувати код JavaScript, який би розкодував контент атрибуту посилання і редиректу. І ось воно! З’явився спосіб структурувати веб-сервіс, не використовуючи rel = nonfollow, щоб боти не проглядали все, що їм заманеться. Куди б не ставили функцію – на ту ж сторінку в розділі head або розміщували її в зовнішньому JS-файлі, слідів Googlebot в логах серверу або Search Console не знайшли.

Частина 3. Прихований контент

В останньому тесті Cyrec вирішив перевірити, чи проіндексував бот прихований контент, або Google відобразив таку сторінку без прихованого тексту, як стверджують деякі фахівці.

Він хотів підтвердити або спростувати цю гіпотезу. Щоб зробити це, він розмістив текст на більш, ніж 2000 знаків на сторінці page12.html, сховав близько 20% тексту в CSS і додав кнопку «Показати більше». Всередині прихованого тексту було посилання на сторінку page13.html з анкором anchor9.

Немає сумнівів, що бот може відобразити сторінку. Це можно побачити в Google Search Console і Google Insight Speed. Проте, експеримент Max Cyrec показав, що прихований блок тексту був повністю проіндексований. Фрази, заховані в тексті, проранжувалися в результатах пошуку, а Googlebot перейшов за посиланнями, захованими в тексті. Більш того, анкор посилань з прихованого блоку тексту було видно в Google Search Console в секції тексту анкору. Сторінка page13.html також почала ранжуватися в результатах пошуку за ключовими словами anchor9.

Це дуже важливо для інтернет-магазинів, де контент часто знаходиться в прихованих вкладках. Тепер відомо, що Googlebot бачить контент в прихованих вкладках, індексує його і передає вагу посилань, захованих в ньому.

Висновки експерименту

  • Найважливіший висновок, який можно зробити з цього експерименту, – немає прямого способу обійти правило першого посилання, використовуючи змінені посилання – посилання з параметром, редиректи 301, канонічні і якірні посилання.
  • Важливо побудувати структуру сайту, використовуючи посилання Javascript. Завдяки цьому йдуть обмеження правилу першого посилання.
  • Googlebot може бачити і індексувати контент, захований у вкладках, і переходити в ньому за посиланнями.

Джерело: searchengineland.com

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*