robots.txt and WordPress

Във предния материал ви показах колко лесно е да се използва WordPress не по предназначение и как да се предпазите от това. Сега ще ви покажа как едно тривиално извикване на robots.txt под WordPress също води до неочаквани резултати, как да му противодействате и още нещо.

Предистория на robots.txt

Имало едно време Интернет и едни сайтове които не били индексирани от никого. На няколко младежа им е хрумнало да направят търсачки които да обхождат денонощно интернет-а и да позволява на потребителите да търсят информация върху вече индексираната информация. Както винаги се случва обаче се оказва как някои страници не трябва да бъдат индексирани и през 1994 се е достигнало до консенсус относно начина по който да става това. Именно тогава се е зародила идеята за robots.txt и неговата спецификация. Тук можете да намерите оригиналната версия на документа. Както виждате няма нищо сложно имаме 2 реда User-agent и Disallow, във първия се описва робота а последващите един или няколко реда описват какво да не индексира. Както може да се забележи стандарта е силно повлиян от Unix и може да се използва # за коментар. През далечната 1996-та година обаче все пак са го вкарали като чернова за IETF и тук е оригинала на документа. Единственната разлика е, че този път е прибавен Allow където се описва изрично какво може да се индексира. Принципа си остава, че всичко което не е забранено е разрешено. В наши дни е широкоразпространено използването на robots.txt във всички сайтове. Едно от първите действия при пускането на сайт е да се настрои правилно robots.txt за да бъде сайта правилно обходен от роботите. Както може и да се очаква почти всички системи за съдържание CMS разполагат със поддръжка на този стандарт. WordPress не прави изключение и е robots.txt съвместим.

robots.txt wordpress example usage

Какъв е проблема със robots.txt под WordPress?

WordPress текущо поддържа 2 режима на индексиране управляващи се от Settings -> Reading Settings:

  • Забрана за индексиране на сайта – използва се когато сайта е във режим на разработка, някакви промени или други причини и съответно не трябва да се индексира. Тогава трябва да се укаже “Search Engine Visibility” и да бъде избрано.
  • Разрешаване на индексиране на сайта – използва се когато сайта е във работен режим и индексирането му е разрешено. Във този случай “Search Engine Visibility” не трябва да е избрано.

Единственното което прави тази настройка е да активира във базата данни една опция “blog_public”. Ако е забранено индексирането се връща следния код за robots.txt:

User-agent: *
Disallow: /

и съответно ако е разрешено кода има следния вид:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Горните редове са всичко което ви трябва и се намират във файла wp-includes/functions.php във функцията do_robots. Проблема е, че да се върнат 3 реда се изпълнява сложна комбинация от код – зарежда се целия WordPress като фреймуорк, установява се връзка към базата, правят се няколко запитвания и на финала се връщат 2-3 реда които винаги са едни и същи.

Как можем да подобрим нещата?

Във момента се занимавам по ускоряване на WordPress със създаването на статични файлове и забелязах през административния панел, че виждам всички заявки към robots.txt. Това ме наведе на мисълта, че този файл не съществува реално, а е виртуален и се генерира от системата. Направих проверка и точно така се указа. Във сървъра такъв файл липсва, но през уеб браузър може да го видя. Разбира се всяка заявка към такива виртуални натоварва сървъра и технически е много по-добре да се направи статичен файл robots.txt във основната папка на WordPress и да се сложат вътре следните редове:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Така малко ще ускорим работата на системата като спестим време. При мен условно от около 100 посещения дневно имам приблизително 100 зареждания на файла. Разбира се при вас стойностите може да се различават във зависимост от натовареността на сайта, социалните сигнали и индексирането му.

Има ли минуси при горния подход?

Има три минуса при този подход. Първия е, че повече няма да можем да управляваме файла от интерфейса. Втория е че повече няма да може да се активира това при обновяване на системата или плъгините. Обикновенно докато обновлението тече се забранява достъпа до сайта и когато свърши се разрешава отново. Технически във този период от няколко секунди може да мине бот и няма да индексира правилно страниците. Лично във моя случай това не е толкова фатално защото WordPress връща грешка и търсещата машина така или иначе узнава, че нещо не е наред и ще дойде пак. Третия минус е при използването на допълнителни плъгини за управлението на robots.txt тогава просто повече няма да може да работят.

Може ли да подобрим нещата още повече?

По време на тазгодишната конференция SMXWest имаше отделна секция Meet the Search Engines където за пореден път се изказа мнението, че е добра практика да се разреши на търсещите машини да индексират JS, CSS и други файлове. Още по въпроса можете да намерите SMX West Liveblog. При горния пример за разрешаване това е частично невъзможно, защото самия ядрото на WordPress се намира във горните две папки. Ето защо ако желаете да разрешите на ботовете да индексират целия сайт кода на robots.txt трябва да изглежда ето така:

User-agent: *
Disallow:

Евентуално може да се прибави и още един ред със sitemap съдържащ пълен URL към файла указващ картата на сайта.

Разбира се целите при които аз правя тази кръпка към WordPress относно robots.txt при мен са различни и може да не са подходящи за Вас. Моята цел е да генерирам статично съдържание от WP със цел качване по CDN без да изгубвам контрол върху съдържанието.

1 comments
kondoyiannis
kondoyiannis

Мисля че е почти задължително да има sitemap съдържащ пълен URL към файла указващ картата на сайта.