Файл robots.txt
Для управлінь індексацією сайту пошуковими системами існує файл robots.txt. Якщо міркувати глобально, то файл robots.txt дозволяє забороняти одні файлу або каталоги для індексації і вирішувати інші. Ось про те, як цим файлом користуватися, як вирішувати і забороняти індексацію певних сторінок і каталогів, Ви дізнаєтеся з цієї статті.
Robots.txt - це звичайний текстовий файл, який розташований в корені сайту. файл robots.txt складається з набору директив, кожна з яких повідомляє якусь інформацію пошуковому роботу.
Але перш ніж приступати до розбору різних директив, потрібно визначитися із загальним синтаксисом:
директива: значенняЯк бачите, синтаксис самий найпростіший. А тепер давайте розберемо найважливіші директиви.
User-Agent
Ця директива означає, до якого роботу відносяться всі наступні директиви. Якщо стоїть значення "*", То це відноситься абсолютно до всіх пошукових роботів. Якщо ж Ви хочете виділити певну пошукову систему, то необхідно поставити в якості значення ім`я пошукового робота (наприклад,"Yandex","Google","Rambler","Mail"І так далі). Приклад використання директиви"User-Agent":
User-agent:GoogleAllow
Дана директива дозволяє індексацію зазначених в значенні елементів. Наприклад, так:
Allow:/imagesВ даному прикладі ми дозволяємо індексацію каталогу "images".
Відео: Файл robots txt для сайту. Як створити правильний robots txt
Disallow
Протилежність директиві "Allow", Тобто, навпаки, забороняє індексацію зазначених елементів. Приклад:
Disallow:/libraryТакож дуже важливо пам`ятати про пріоритет. Пріоритет має та директива, яка розташована вище. Наприклад, в такому файлі robots.txt:
Allow:/ images
Disallow: /Тут забороняється індексувати сайт повністю ( "Disallow: /"), Але так як у нас до цього йде директива Allow, і вона є пріоритетною, то на індексацію каталогу "images"Заборона не поширюється.
Або, наприклад, такий варіант:
Disallow:/
Allow: /imagesВ даному прикладі, ми спочатку все забороняємо, а потім намагаємося вирішити індексацію каталогу "images", Однак, цього не відбудеться. Так як директива Disallow варто раніше, і вона має більш високоі пріоритет. Тобто результатом даного файлу robots.txt буде повна заборона індексації сайту.
*
"*"Використовується в директивах Allow і Disallow, і "*"Означає будь-яку послідовність символів. Щоб стало зрозуміліше, привожу приклад:
Disallow:/ Library /*.phpТаким чином, ми забороняємо індексацію всіх PHP-файлів в директорії "library". Однак, файл"library / page.html"Буде доступний для індексації.
Sitemap
Використовувати дану директиву потрібно тільки в тому випадку, якщо у Вас є XML-версія карти сайту. У значенні цієї директиви необхідно вказати повний шлях до карти сайту. Наприклад, так:
Sitemap: http://mysite.ru/sitemap.xmlHost
Дану директиву розуміє тільки Яндекс, тому інші пошукові роботи дану директиву просто пропустять. містить "Host"Адреса основного сайту. Припустимо, у Вашого сайту є кілька дзеркал (наприклад, mysite.ru, mysite.com, mysite.net і так далі). У значенні цієї директиви необхідно вказати основну адресу:
Відео: Файл Robots txt - настройка, директиви і популярні помилки
Host: mysite.ruТакож дана директива корисна для усунення дублювання з www, так як по суті mysite.ru і mysite.ru - це два абсолютно різних сайту з точки зору пошукової системи: Просто вкажіть то значення (з www або без) в значенні директиви Host, яке Ви хочете, і це дублювання пропаде. Однак, не забувайте, що це зрозуміє лише Яндекс, а для Google треба все-таки ставити 301 редирект (тут більш докладно про це). Тому користуйтеся цією директиву, як додаткове ліки, а не як основне.
Clean-param
Остання директива, яка іноді має дуже серйозне значення, це "Clean-param". Якщо Ваш сайт динамічний, і посилання мають GET-параметри, то дуже часто в GET передаються параметри, які не впливають на вміст сторінки. Наприклад, дві адреси однієї і тієї ж сторінки:
http://mysite.ru/index.php?id=15sid=fdsl3l39dsfdsl3l39ds93fdsl3l39ds
http://mysite.ru/index.php?id=15sid=a4hl33392gfhnlz4hdklf3fd372dvxfsФактично, дані посилання відрізняються значенням параметра "sid", А тому для пошукової системи це дві абсолютно різних сторінки. Однак, дуже часто такі параметри не змінюють контент сторінки. І ось для того, щоб прибрати дублювання (лютий ворог оптимізації), що виникає ось від таких параметрів, потрібно використовувати директиву"Clean-param":
Clean-param: sid /index.phpЦе, мабуть, все найважливіші і самі частоїспользуємиє директиви файлу robots.txt. Є ще кілька, але вони використовуються вкрай рідко, і краще ними голову не забивати, хоча, якщо хочете, то можете пошукати в Інтернеті.
І, наостанок, наведу приклад свого файлу robots.txt (На момент написання статті), а також детально його поясню:
User-agent:*
Disallow:/ admin
Disallow: /captcha
Disallow:/ js
Disallow: /lib
Disallow:/ scripts
Disallow: /print.php
Sitemap: http://myrusakov.ru/sitemap.xml
Host: myrusakov.ruВ данному robots.txt для всіх пошукових роботів заборонена індексація наступних каталогів: "admin","captcha","js","lib","scripts". Також заборонена індексація файлу"print.php". Шлях до XML-версії карти сайту: "https://myrusakov.ru/sitemap.xml". Основна адреса сайту ;"myrusakov.ru".
Відео: SEOподготовка. Частина 3. Головне дзеркало сайту і файл robots.txt
І головне правило, яке використовується найчастіше при складанні robots.txt - це "все, що не заборонено - дозволено". Фактично, в прикладі robots.txt, я нічого не дозволяв, а тільки забороняв. Це означає, що все, що я не заборонив, поісоковий робот може індексувати. Ось таке просте правило. Іншими словами, якщо Ви створювати файл robots.txt не будете, то Ваш сайт буде індексуватися повністю від початку і до кінця, що не завжди добре, так як пошуковому роботу зовсім необов`язково індексувати різні скрипти і системні файли. Ось для завдання заборон і існує файл "robots.txt", про який Ви тепер знаєте все, що потрібно.
Створення стислих файлів формату .cab в операційних системах windows.
War robots
Walking war robots
Команда exit - завершити роботу командного процесора або поточного командного файлу.
Як створити файл .htaccess
Як зробити чпу-посилання
Як приховати вміст директорії на сайті
Налаштування файлу htaccess
Команда call
Налаштування завантажувача grub
Підручники по створенню та розкрутці сайту
Сайт з www і без
Карта сайту в форматі xml
Права доступу до файлів
Директива register_globals
Робота з файлами в php
Мета-теги для пошукових систем в html
Додавання статей в joomla
Функції форматного виведення в php
Налаштування logrotate
Читання ini-файлу в php
Функції форматного виведення в php
War robots
Налаштування logrotate
Сайт з www і без
Робота з файлами в php
Директива register_globals
Помилка 403 forbidden nginx 1.4 6 ubuntu
Мета-теги для пошукових систем в html
Як створити файл .htaccess