Як закрити сайт від індексації в robots.txt: інструкції та рекомендації

Зміст

Помічник роботів
Функції документа
Для чого потрібен robots.txt?
Робота з файлом
Особливість ботів
Приклад
Перевірка файлу

Робота SEO-оптимізатора дуже масштабна. Початківцям фахівцям рекомендується записувати алгоритм оптимізації, щоб не пропустити якісь етапи. В іншому випадку просування буде важко назвати успішним, оскільки на сайті постійно будуть відбуватися збої і помилки, які довгий час доведеться виправляти.

Одним з етапів оптимізації є робота з файлом robots.txt. Цей документ повинен бути у кожного ресурсу, оскільки без нього буде складніше справлятися з оптимізацією. Він виконує багато функцій, в яких доведеться розбиратися.

Помічник роботів

Файл robots.txt-це звичайний текстовий документ, який можна переглянути в стандартному "блокноті" системи. При його створенні необхідно встановлювати кодування UTF-8, щоб він читався коректно. Працює файл з протоколами http, https і FTP.

Цей документ є помічником пошукових роботів. Якщо ви не знаєте, то кожна система використовує "павучків", які швидко сканують Всесвітню павутину, щоб видавати релевантні сайти на запити користувачів. Ці роботи повинні мати доступ до даних ресурсу, для цього працює robots.txt.

Щоб "павуки" знайшли шлях, необхідно відправити документ robots.txt до кореневого каталогу. Щоб перевірити, чи є у Сайту цей файл, в адресний рядок браузера слід ввести «https://site.com.ua/robots.txt». Замість " site.com.ua " потрібно ввести необхідний Вам ресурс.

Функції документа

Файл robots.txt надає пошуковим роботам кілька видів інформації. Він може дати частковий доступ, щоб "павук" провів сканування конкретних елементів ресурсу. Повний доступ дозволяє перевіряти всі наявні сторінки. Повна заборона не дає роботам можливості навіть почати перевірку, і ті залишають сайт.

Після відвідування ресурсу "павуки" отримують відповідну відповідь на запит. Їх може бути кілька, все залежить від інформації в robots.txt. Наприклад, якщо сканування пройшло успішно, робот отримає код 2XX.

Можливо, на сайті було встановлено переадресацію з однієї сторінки на іншу. У цьому випадку робот отримує код 3xx. Якщо цей код зустрічається кілька разів, то «павук» буде слідувати йому до тих пір, поки не отримає іншу відповідь. Хоча, як правило, використовує він тільки 5 спроб. В іншому випадку з`являється популярна помилка 404.

Якщо відповідь 4xx, значить, роботу дозволено сканувати весь вміст сайту. А ось у випадку з кодом 5xx, перевірка може повністю припинитися, оскільки найчастіше це говорить про тимчасові помилки сервера.

Для чого потрібен robots.txt?

Як Ви вже здогадалися, цей файл є провідником роботів в корінь сайту. Зараз його використовують для того, щоб частково обмежити доступ до небажаного контенту:

сторінки з особистою інформацією користувачів;
сайти-дзеркала;
видача пошукових результатів;
форми відправки даних і пр.

Якщо в корені сайту немає файлу robots.txt, то робот просканує абсолютно весь контент. Відповідно, у видачі можу з`явитися небажані дані, а значить, постраждаєте і ви, і сайт. Якщо ж в документі robots.txt є особливі вказівки, значить « "павук" буде слідувати їм і видасть інформацію, бажану власнику ресурсу.

Робота з файлом

Щоб за допомогою robots.txt закрити сайт від індексації, необхідно розібратися з тим, як створити цей файл. Для цього необхідно слідувати інструкції:

Створити документ в "блокноті" або Notepad++.
Встановити розширення файлу «.txt».
Внести необхідні дані і команди.
Зберегти документ і завантажити його в корінь сайту.

Як бачите, на одному з етапів необхідно встановити команди для роботів. Вони бувають двох типів: дозволяють (Allow) і забороняють (Disallow). Також деякі оптимізатори можуть вказати швидкість обходу, хост і посилання на карту сторінок ресурсу.

Для того щоб почати роботу з robots.txt і повністю закрити сайт від індексації, необхідно також розібратися в використовуваних символах. Наприклад, в документі можна використовувати"»", який вказує на те, що сайт обраний цілком. Якщо ж використовується"*", значить, потрібна послідовність символів. Таким чином можна буде вказати конкретну папку, яку або можна сканувати, або не можна.

Особливість ботів

"Павуки" у пошукових систем різні, тому якщо ви працюєте відразу на кілька пошукових систем, значить, доведеться враховувати цей момент. Імена у них різні, а значить, якщо ви хочете звернутися до конкретного роботу, вам доведеться вказати його ім`я: «User Agent: Yandex "» без лапок).

Якщо ж ви хочете задати директиви для всіх пошукових систем, значить необхідно використовувати команду: "User Agent: * » (без лапок). Щоб правильно за допомогою robots.txt закрити сайт від індексації, необхідно дізнатися специфіку популярних пошукових систем.

Справа в тому, що у найпопулярніших пошукових систем Yandex і Google є кілька ботів. Кожен з них займається своїми завданнями. Наприклад, Yandex Bot і Googlebot-основні "павуки", які сканують сайт. Знаючи всіх ботів, буде простіше точно налаштувати роботу індексації вашого ресурсу.

Приклад

Отже, за допомогою robots.txt закрити сайт від індексації можна простими командами, головне-розуміти, що потрібно конкретно. Наприклад, якщо ви хочете, щоб робот Google не наближався до вашого ресурсу, необхідно дати йому відповідну команду. Вона буде виглядати: «User-agent: Googlebot Disallow: / » (без лапок).

Тепер потрібно розібрати, що ж в цій команді і як вона працює. Отже, «User-agent» застосовується для того, щоб було використано пряме звернення до якогось з ботів. Далі ми вказуємо до якого саме, в нашому випадку це Google. Команда "Disallow" повинна починатися з нового рядка і заборонити роботу заходити на сайт. Символ слеша в даному випадку говорить про те, що для виконання команди обрані всі сторінки ресурсу.

У robots.txt заборона індексації для всіх пошукових систем можна виконати простою командою: «User-agent: * Disallow: / » (без лапок). Символ зірочки в даному випадку позначає всі пошукові роботи. Зазвичай така команда потрібна для того, щоб призупинити індексацію сайту і почати кардинальні роботи над ним, які в іншому випадку могли б вплинути на оптимізацію.

Якщо ресурс великий і має багато сторінок, часто там є службова інформація, яку або небажано розголошувати, або вона може негативно вплинути на просування. В цьому випадку потрібно розуміти, як закрити сторінку від індексації в robots.txt.

Можна заховати або папку, або файл. У першому випадку потрібно знову-таки почати з звернення до певного боту або всім, тому використовуємо команду "User-agent", а нижче вказуємо команду "Disallow" для певної папки. Виглядати це буде наступним чином: «Disallow: / папка / » (без лапок). Таким чином ви сховаєте всю папку. Якщо ж в ній є якийсь важливий файл, який ви хотіли б показати, то нижче потрібно написати команду: "Allow: / папка / файл.php " » без лапок).

Перевірка файлу

Якщо за допомогою robots.txt закрити сайт від індексації у вас вийшло, але ви не знаєте, чи спрацювали правильно всі ваші директиви, можна перевірити коректність роботи.

Для початку потрібно знову перевірити розміщення документа. Пам`ятайте, що він повинен бути виключно в кореневій папці. Якщо він потрапив в подкорневную папку, то працювати не буде. Далі відкриваємо браузер і вводимо туди наступну адресу «" http://вашсайт. com/robots.txt " » без лапок). Якщо в веб-браузері з`явилася помилка, значить, файл знаходиться не там, де повинен.

Директиви перевірити можна в спеціальних інструментах, які використовують практично всі веб-майстри. Йдеться про продукти Google і Yandex. Наприклад, в Google Search Console є панель інструментів, де потрібно відкрити "сканування", а після запустити " інструмент перевірки файлу robots.txt». У вікно необхідно скопіювати всі дані з документа і запустити сканування. Точно таку ж перевірку можна зробити в " Яндекс.Вебмастер».