Файл robots.txt

Для управлінь індексацією сайту пошуковими системами існує файл robots.txt. Якщо міркувати глобально, то файл robots.txt дозволяє забороняти одні файлу або каталоги для індексації і вирішувати інші. Ось про те, як цим файлом користуватися, як вирішувати і забороняти індексацію певних сторінок і каталогів, Ви дізнаєтеся з цієї статті.

Robots.txt - це звичайний текстовий файл, який розташований в корені сайту. файл robots.txt складається з набору директив, кожна з яких повідомляє якусь інформацію пошуковому роботу.

Але перш ніж приступати до розбору різних директив, потрібно визначитися із загальним синтаксисом:

директива: значення

Як бачите, синтаксис самий найпростіший. А тепер давайте розберемо найважливіші директиви.

User-Agent

Ця директива означає, до якого роботу відносяться всі наступні директиви. Якщо стоїть значення "*", То це відноситься абсолютно до всіх пошукових роботів. Якщо ж Ви хочете виділити певну пошукову систему, то необхідно поставити в якості значення ім`я пошукового робота (наприклад,"Yandex","Google","Rambler","Mail"І так далі). Приклад використання директиви"User-Agent":

User-agent:Google

Allow

Дана директива дозволяє індексацію зазначених в значенні елементів. Наприклад, так:

Allow:/images

В даному прикладі ми дозволяємо індексацію каталогу "images".

Відео: Файл robots txt для сайту. Як створити правильний robots txt

Disallow

Протилежність директиві "Allow", Тобто, навпаки, забороняє індексацію зазначених елементів. Приклад:

Disallow:/library

Також дуже важливо пам`ятати про пріоритет. Пріоритет має та директива, яка розташована вище. Наприклад, в такому файлі robots.txt:

Allow:/ images 
Disallow: /

Тут забороняється індексувати сайт повністю ( "Disallow: /"), Але так як у нас до цього йде директива Allow, і вона є пріоритетною, то на індексацію каталогу "images"Заборона не поширюється.

Або, наприклад, такий варіант:

Disallow:/ 
Allow: /images

В даному прикладі, ми спочатку все забороняємо, а потім намагаємося вирішити індексацію каталогу "images", Однак, цього не відбудеться. Так як директива Disallow варто раніше, і вона має більш високоі пріоритет. Тобто результатом даного файлу robots.txt буде повна заборона індексації сайту.

*

"*"Використовується в директивах Allow і Disallow, і "*"Означає будь-яку послідовність символів. Щоб стало зрозуміліше, привожу приклад:

Disallow:/ Library /*.php

Таким чином, ми забороняємо індексацію всіх PHP-файлів в директорії "library". Однак, файл"library / page.html"Буде доступний для індексації.

Sitemap

Використовувати дану директиву потрібно тільки в тому випадку, якщо у Вас є XML-версія карти сайту. У значенні цієї директиви необхідно вказати повний шлях до карти сайту. Наприклад, так:

Sitemap: http://mysite.ru/sitemap.xml

Host

Дану директиву розуміє тільки Яндекс, тому інші пошукові роботи дану директиву просто пропустять. містить "Host"Адреса основного сайту. Припустимо, у Вашого сайту є кілька дзеркал (наприклад, mysite.ru, mysite.com, mysite.net і так далі). У значенні цієї директиви необхідно вказати основну адресу:

Відео: Файл Robots txt - настройка, директиви і популярні помилки

Host: mysite.ru

Також дана директива корисна для усунення дублювання з www, так як по суті mysite.ru і mysite.ru - це два абсолютно різних сайту з точки зору пошукової системи: Просто вкажіть то значення (з www або без) в значенні директиви Host, яке Ви хочете, і це дублювання пропаде. Однак, не забувайте, що це зрозуміє лише Яндекс, а для Google треба все-таки ставити 301 редирект (тут більш докладно про це). Тому користуйтеся цією директиву, як додаткове ліки, а не як основне.

Clean-param

Остання директива, яка іноді має дуже серйозне значення, це "Clean-param". Якщо Ваш сайт динамічний, і посилання мають GET-параметри, то дуже часто в GET передаються параметри, які не впливають на вміст сторінки. Наприклад, дві адреси однієї і тієї ж сторінки:

http://mysite.ru/index.php?id=15sid=fdsl3l39dsfdsl3l39ds93fdsl3l39ds 
http://mysite.ru/index.php?id=15sid=a4hl33392gfhnlz4hdklf3fd372dvxfs

Фактично, дані посилання відрізняються значенням параметра "sid", А тому для пошукової системи це дві абсолютно різних сторінки. Однак, дуже часто такі параметри не змінюють контент сторінки. І ось для того, щоб прибрати дублювання (лютий ворог оптимізації), що виникає ось від таких параметрів, потрібно використовувати директиву"Clean-param":

Clean-param: sid /index.php

Це, мабуть, все найважливіші і самі частоїспользуємиє директиви файлу robots.txt. Є ще кілька, але вони використовуються вкрай рідко, і краще ними голову не забивати, хоча, якщо хочете, то можете пошукати в Інтернеті.

І, наостанок, наведу приклад свого файлу robots.txt (На момент написання статті), а також детально його поясню:

User-agent:* 
Disallow:/ admin 
Disallow: /captcha 
Disallow:/ js 
Disallow: /lib 
Disallow:/ scripts 
Disallow: /print.php 
Sitemap: http://myrusakov.ru/sitemap.xml 
Host: myrusakov.ru

В данному robots.txt для всіх пошукових роботів заборонена індексація наступних каталогів: "admin","captcha","js","lib","scripts". Також заборонена індексація файлу"print.php". Шлях до XML-версії карти сайту: "https://myrusakov.ru/sitemap.xml". Основна адреса сайту ;"myrusakov.ru".

Відео: SEOподготовка. Частина 3. Головне дзеркало сайту і файл robots.txt

І головне правило, яке використовується найчастіше при складанні robots.txt - це "все, що не заборонено - дозволено". Фактично, в прикладі robots.txt, я нічого не дозволяв, а тільки забороняв. Це означає, що все, що я не заборонив, поісоковий робот може індексувати. Ось таке просте правило. Іншими словами, якщо Ви створювати файл robots.txt не будете, то Ваш сайт буде індексуватися повністю від початку і до кінця, що не завжди добре, так як пошуковому роботу зовсім необов`язково індексувати різні скрипти і системні файли. Ось для завдання заборон і існує файл "robots.txt", про який Ви тепер знаєте все, що потрібно.

Поділися в соціальних мережах:

Схожі