Створення сайту. Правильне створення файлів Robots.txt і Sitemap.xml
Основна маса відвідувачів приходить на сайти з пошукових систем. Тому, створюючи новий веб -ресурс, важливо подбати про те, щоб він був помічений пошукачами. Наповнення бази даних пошукових систем виконується завдяки пошуковому роботу. Він запитує сторінки з сайтів і індексує їх (тобто, додає в базу). Робот також переходить по посиланнях на цих сторінках і таким чином виявляє нові сайти.
Для спілкування веб- майстра з пошуковими системами використовується два файли - Robots.txt і Sitemap.xml . Перший містить інструкції щодо того , що індексувати не потрібно , а другий , навпаки , підказує роботу , що на сайті є новенького і цікавого. Про те , як створити такі файли і як грамотно їх використовувати , ми розповімо в цій статті.
На зорі Інтернету майже всі сайти представляли собою набір html - сторінок. Як правило , на сайті було меню навігації , за допомогою якого можна було швидко потрапити на будь-яку сторінку ресурсу. Пошуковим роботам нічого не варто було просканувати такий сайт - число сторінок було невелике , і вони були об'єднані посиланнями.
З поширенням CMS структура сайтів змінилася. По-перше , істотно зросло число файлів на них. Для роботи движка потрібні сотні файлів , і більшість з них не містять ніякого контенту , тому для індексації в пошукових вони не потрібні. Текстовий вміст сайту стало зберігатися в базі даних і видаватися за запитом. Саме тому на сучасному сайті можлива наявність декількох сторінок з однаковим контентом ( наприклад , головна сторінка зі списком новин , сторінка з повним текстом новини , сторінка з останніми новинами з певного розділу ) . Пошуковому роботу часто буває складно розібратися в тисячах однотипних сторінок , тому він може кинути сканувати сайт , не дійшовши до кінця. При цьому важливий контент може залишитися непроіндексованої , а інший - потрапити в індекс три рази на різних сторінках .
Як цього уникнути? Потрібно допомогти роботу визначити , які файли на сайті сканувати не потрібно , а які сторінки , навпаки , варто додати в індекс.
Як повідомити пошуковому роботу про сайт
Після появи сайту в Мережі рано чи пізно робот його виявить. Це відбудеться швидше , якщо посилання на новий сайт з'являться на інших веб -ресурсах. Щоб прискорити процес індексування , можна повідомити пошуковим системам про новий сайт самостійно. Щоб повідомити Яндекс про появу нового сайту , зайдіть на сторінку webmaster.yandex.ua і вкажіть URL сайту. Якщо на сайті використовується стандартний протокол http , в адресі його вказувати не потрібно . Введіть код captcha і натисніть на кнопку Додати.
Для того щоб повідомити пошуковій системі Google про новий сайт , перейдіть на сторінку google.com / webmasters / tools . Доступ до неї можливий тільки після входу в обліковий запис Google. Вкажіть адресу ресурсу в поле URL . Введіть код captcha і натисніть на кнопку Відправити запит .
Robots.txt - заборони та обмеження
Коли пошуковий робот заходить на сайт , першим ділом він шукає в кореневій директорії файл robots.txt. Це - простий текстовий файл , в якому зберігаються вказівки для роботів щодо того , які сторінки сайту потрібно індексувати , а які - ні. Навіщо роботу потрібно давати ці вказівки ? По-перше , на сервері можуть зберігатися деякі конфіденційні дані , попадання яких в пошуковий індекс небажано. По-друге , на ньому зберігаються логи , кеш , тимчасові файли , файли движка , які для всіх , крім веб -майстри, є просто сміттям. По-третє , структура сайту може бути така, що один і той же вміст може зустрічатися на різних сторінках . Пошукові системи не люблять повторень , тому краще забороняти індексувати ідентичний контент. Нарешті , можливо , ваш сайт створений для обмеженої групи осіб , і вам не потрібні гості з пошуковиків. У таких випадках за допомогою файлу robots.txt можна взагалі заборонити його індексацію. Тоді в пошуковій видачі він не з'явиться.
Для створення файлу robots.txt можна використовувати спеціалізовані програми та сервіси , але навіть якщо жодного з подібних інструментів немає під рукою , його завжди можна згенерувати в звичайному текстовому редакторі. Підійде як стандартний « Блокнот» , так і, наприклад , його більш просунута версія для веб- майстрів Notepad + + .
Файл robots.txt може з'явитися на вашому сервері автоматично разом з установкою популярної CMS. Але його наявність ще не означає , що в ньому враховані всі особливості сайту. Швидше за все , розробники CMS внесли в нього заборону на доступ до тих каталогом , в яких містяться службові і тимчасові файли . Іншими словами , частина роботи вони за веб- майстра виконали , але доопрацювати robots.txt належить для кожного сайту вручну. До речі , в Інтернеті можна знайти безліч прикладів цього файлу для популярних CMS , в яких враховані особливості структури таких сайтів.
Створення файлу robots.txt вручну
Отже, відкрийте текстовий редактор , натисніть на кнопку Зберегти і введіть назву файлу - robots.txt. Зверніть увагу на те , що всі букви в його назві обов'язково повинні бути малими. Якщо завантажити на сервер порожній файл або не завантажувати його зовсім , пошуковий робот буде індексувати всі документи , які він виявить на сайті.
Для управління поведінкою пошукових роботів використовуються два головних оператора: User - Agent і Disallow . Перший вказує на те, для якої пошукової системи призначені перераховані нижче правила . Другий служить для створення цих правил. Наприклад , якщо в robots.txt маються два рядки:
User - Agent : Yandex
Disallow : / cgi - bin /
То це означає , що для пошукового робота Яндекса заборонено відвідування директорії cgi - bin . У синтаксисі файлу robots.txt має значення все : використання великих і малих літер , слеші , порожні рядки , тому при його створенні вручну потрібно бути гранично уважним.
Оператор User - Agent
У файлі robots.txt можуть бути зазначені загальні правила для всіх пошукових систем , а можуть бути задані окремі правила для деяких пошукачів. Для основних пошукових роботів використовуються такі назви:
Яндекс Yandex
Google GoogleBot
Bing bingbot
Mail.ru Mail.ru
Yahoo Slurp
Alexa la_archiver
Яндекс.Блогі YandexBlog
Якщо потрібно задати правила для всіх пошукових систем , то у файлі потрібно прописати User - Agent : *.
Що можна забороняти
За допомогою оператора Disallow можна забороняти доступ до директорій , до окремих файлів , до файлів і папок , в назвах яких зустрічаються певні символи . Ось деякі приклади заборон :
Disallow : / заборона на індексацію сайту повністю
Disallow : / folder / заборона на індексацію папки з назвою folder
Disallow : / path / folder / заборона на індексацію папки з назвою folder , яка знаходиться в папці під назвою path
Disallow : / file.html заборона на індексацію файлу file.html , який знаходиться в кореневому каталозі
Disallow : / folder / file.html заборона на індексацію файлу file.html , який знаходиться в папці folder
Disallow : / symbols заборона на індексацію файлів і папок з кореневого каталогу , в назві яких є зазначені символи
Disallow : / folder / symbols заборона на індексацію файлів і папок з директорії folder , у назві яких є зазначені символи
Disallow : * / feed / заборона на індексацію всіх адрес , які закінчуються на feed
Як правильно розставити всі оператори
Заборони не можна перераховувати в одному рядку . Для кожної папки , кожного файлу і будь-якого іншого правила повинен бути зазначений свій оператор з нового рядка. Оператор Disallow завжди повинен розташовуватися на рядку , яка слідує за оператором User - Agent. Якщо правил Disallow кілька , кожне нове розташовується на наступному рядку . При цьому порожні рядки між операторами Disallow неприпустимі , так як для пошукового робота вони означають перехід до наступного набору правил.
Якщо потрібно задати одні й ті ж директиви для всіх пошукових систем , то досить прописати
User - Agent : *
Disallow : / folder /
Якщо потрібно задати свої директиви для різних пошукових систем , то набори правил для кожної з них відокремлюються від попередньої пошукової системи порожнім рядком . Ось так:
User - Agent : Yandex
Disallow : / folder /
User - Agent : GoogleBot
Disallow : / file.html
додаткові директиви
Крім основних операторів User - Agent і Disallow , використовуються також додаткові . Частина з них зрозуміла тільки деяким пошуковим роботам .
Директива Host
Директива Host потрібна для того , щоб при наявності дзеркал сайту вказати роботу на головну адресу ресурсу. Найпростіший приклад дзеркала - написання назви сайту з www і без нього. Сайти site.ru і www.site.ru для пошукового робота є двома різними ресурсами , тому варто написати в файлe robots.txt , який з них є основним. Наприклад , так Host : www.site.ru. Цей рядок повинна слідувати безпосередньо за останнім рядком Disallow . У ній неприпустимо вказувати IP- адреси , слеш наприкінці адреси , символи http:// на початку , два домену в одному рядку.
Директива Crawl - delay
Директива Crawl - delay може бути корисна в тих випадках , коли потрібно знизити навантаження на сервер , яка неодмінно створюється при закачуванні сайту роботом. З її допомогою можна задати мінімальний період часу між кінцем завантаження попередньої сторінки і початком закачування наступної. Наприклад , якщо у файлі вказати Crawl - delay : 2 , то це означатиме , що інтервал між завантаженням сторінок дорівнює двом секундам .
Додавання коментарів
Щоб у файлі robots.txt було простіше розібратися , в ньому допустимо додавання коментарів . Коментарі пошуковими роботами на обробляються. Перед текстом коментаря використовується символ # . Коментар може виглядати , наприклад , так:
Disallow : / wp - admin /
# заборонений доступ до папки wp - admin
Коментарі можна поміщати і на одному рядку з операторами , але щоб уникнути проблем з нерозумінням роботів рекомендується писати їх на наступному рядку .
Автоматичне створення robots.txt
При створенні файлу robots.txt вручну можливе виникнення помилок в синтаксисі , тому можна використовувати онлайн- генератор. Звичайно , його , швидше за все , доведеться потім допрацьовувати вручну , однак основні директиви він пропише . Наприклад, можна використовувати сервіс mcanerin.com .
У списку Default - All Robots are : виберіть одне зі значень . Якщо пошукові роботи допускаються до сайту , виберіть варіант Allowed , якщо ж доступ потрібно заборонити - Refused . У списку Crawl - Delay вкажіть значення директиви відстрочки завантаження сторінок , а в поле Sitemap напишіть шлях до карти сайту. Якщо потрібно обмежити доступ до сайту деяких пошукових роботів , виберіть у списку навпроти їхніх назв варіант Refused . У розділі Restricted Directories вкажіть папки , до яких потрібно закрити доступ. Наприкінці кожної папки повинен бути символ / .
Натисніть на кнопку Create robots.txt , щоб згенерувати файл. Скопіюйте результат з поля форми і вставте в текстовий файл.
Що робити , якщо створити файл robots.txt неможливо
Як правило , власник сайт має доступ до кореневої директорії сайту по FTP і може записати в неї файл robots.txt. Але якщо доступ до цієї папки з якихось причин не надається , можна заборонити індексацію окремих сторінок сайту іншим способом. Для цього в код сторінки потрібно включити тег META NAME = « ROBOTS » CONTENT = « NOINDEX ». Якщо ж включити тег META NAME = « ROBOTS » CONTENT = « NOFOLLOW » , робот буде індексувати сторінку , але проходити по посиланнях з неї не буде. Деякі SEO- оптимізатори навіть рекомендують використовувати ці теги замість заборон в robots.txt , оскільки вони мають більшу вагу для пошукових роботів. Вміст файлу robots.txt робот може проігнорувати , а ось такий тег обробить обов'язково .
Перевірка працездатності robots.txt
Щоб переконатися в тому , що у файлі robots.txt немає помилок , і він сприймається пошуковими роботами , можна перевірити його на наявність помилок. Це можна зробити , наприклад , за допомогою сервісу Яндекс.Вебмастер . Реєстрація на сервісі для перевірки файлу robots.txt не потрібно. Клацніть по посиланню Перевірити robots.txt на заголовній сторінці . Перевірка проводиться для робота з ім'ям Yandex , а при його відсутності - для всіх роботів (User - Agent : *).
Введіть адресу сайту в полі Ім'я хоста. Натисніть на кнопку Завантажити robots.txt з сайту. Вміст файлу відобразиться в поле Robots.txt . Якщо помилки будуть виявлені , вони відобразяться у вікні.
Sitemap.xml - карта сайту для пошуковиків
Карта сайту , що представляє собою список його розділів з посиланнями , спочатку створювалася у форматі HTML і використовувалася на сайтах для того , щоб відвідувачі могли швидко потрапити саме на ту сторінку , яка їм необхідна. Тепер же карта сайту створюється , в основному , для пошукових систем . Вона особливо важлива:
• для сайтів , які часто оновлюються (блоги , форуми , новинні ресурси ) ;
• для тих ресурсів , на яких є сторінки з мультимедійним AJAX - вмістом або зображеннями ;
• для сайтів , на яких є безліч сторінок , погано пов'язаних один з одним за допомогою посилань або незв'язаних зовсім;
• для нових проектів , на яких поки ще мало зовнішніх посилань.
На відміну від файлу robots.txt , який можна створити один раз і забути про нього надовго , файл Sitemap.xml потрібно постійно підтримувати в актуальному стані (особливо - якщо на сайті регулярно з'являються новини).
Структура файлу Sitemap.xml
На відміну від файлу robots.txt , карта сайту майже ніколи не створюється вручну. Принаймні , для великих сайтів дуже складно вручну перерахувати всі значущі сторінки. Проте будь-якому веб -майстру не завадить знати структуру цього файлу , щоб при необхідності мати можливість внести в нього правки в ручному режимі.
Отже , файл Sitemap.xml починається з рядків
<urlset xmlns = " http://www.sitemaps.org/schemas/sitemap/0.9 " / >
У першому рядку вказується кодування (UTF - 8 - обов'язкова вимога для цього файлу) , у другій йде посилання на поточний стандарт . Далі перераховуються посилання . Для кожного посилання пишеться блок команд , які полягають у блок . Виглядає це приблизно так:
<url>
<loc> http://www.computerbild.ru/ </loc>
<lastmod> 2013 -08- 12T15 : 25:56 +00:00 </lastmod>
<changefreq> daily </changefreq>
<priority> 1.0 </priority>
</url>
Для кожного посилання обов'язковим є тільки тег
<loc / >
, Решта ж необов'язкові , але саме вони повідомляють пошуковим роботам важливу інформацію щодо сторінок сайту. тег
<lastmod / >
містить інформацію про останньому оновленні сторінки. Для пошукового робота це сигнал не заходить на неї , якщо він був не неї вже після того , як вона була оновлена в останній раз.
тег
<changefreq / >
повідомляє пошуковому роботу , наскільки часто оновлюється сторінка . Параметр daily означає щоденне оновлення . Крім нього , доступні параметри yearly (щорічне ) , weekly ( щотижневе ) , monthly ( щомісячне) , hourly ( щогодини) , always ( частіше , ніж раз на годину).
тег
<priority / >
використовується для повідомлення пошуковому роботу про те , наскільки важливою є веб-сторінка. Для сторінок можна встановити різний пріоритет - від 0 до 1 . Обробивши карти сайту , робот в першу чергу проиндексирует сторінки з великим пріоритетом.
Cтворення Sitemap.xml
Створювати карту сайту можна по- різному. Для невеликих сайтів , які не дуже часто оновлюються , підійдуть онлайнові генератори файлу Sitemap.xml . Як правило , на таких сервісах є обмеження на число посилань у файлі. Якщо на сайті більше 500 сторінок ( число може бути різним для різних сервісів ) , за послугу створення карти сайту доводиться платити. У кожному разі , для блогу, який оновлюється щодня , онлайн -генератори не надто зручні, оскільки веб -майстру потрібно щоразу вручну створювати карту сайту і перезавантажувати файл на сервер. Для часто оновлюваних проектів набагато зручніше використовувати генератори Sitemap.xml , вбудовані в движок.
Робота з сервісом xml - sitemaps.com
Створення карти сайту за допомогою сервісу xml - sitemaps.com не займе багато часу. Для початку введіть адресу сайту в полі Starting URL . У списку Change frequency вкажіть , наскільки часто інформація на сайті оновлюється. Наприклад , якщо новини публікуються щодня , виберіть варіант Daily. У розділі Last modification вкажіть дату останнього оновлення сайту. Активуйте радіокнопку Use server's response , щоб використовувати час сервера. Виберіть варіант Use this date / time : , щоб вказати дату і час вручну.
У розділі Priority можна визначитися з тим , чи буде карта сайту включати параметр пріоритету сторінок. Виберіть варіант None , якщо тег пріоритету додавати не потрібно , або варіант Automatically Calculated Priority , щоб ресурс автоматично обчислив важливість сторінок.
Натисніть на кнопку Start для початку створення карти сайту . Процес займе якийсь час , після чого сервіс видасть посилання на файл.
Завантажте його , а потім закачайте по FTP на сервер сайту. Якщо завантаження виконана в кореневу директорію , шлях до файлу буде виглядати як http://mysite/sitemap.xml.
Створення карти сайту для блогу на Wordpress
Для движка Wordpress існує ряд доповнень , за допомогою яких можна створити карту сайту. Основна перевага такого підходу - карта сайту може оновлюватися з заданою періодичністю і автоматично пересохранять в заданій папці.
Скористаємося плагіном Google XML Sitemaps . Після установки плагін доступний у розділі адмін- панелі Параметри > XML Sitemap . Перейдіть до його настройок і клацніть по посиланню Click here для першого створення карти сайту. Якщо встановити прапорець в чекбоксі Rebuild sitemap if you change the content of your blog , карта буде оновлюватися автоматично при додаванні нових публікацій .
Як розповісти пошуковику про карту сайту
На відміну від файлу robots.txt , файл sitemap.xml не обов'язково повинен розташовуватися в кореневій директорії сайту . Але щоб пошуковий робот його знайшов , йому потрібно повідомити про розташування файлу. Найпростіший спосіб це зробити - залишити посилання на нього у файлі robots.txt.
Для цього в самому кінці цього файлу потрібно додати рядок
Sitemap: http://mysite/sitemap.xml
Варто звернути увагу на те , що в цій директиві , на відміну від директиви Host , адреса сайту пишеться повністю (з http ) . Файл sitemap.xml не може містити більше 50 тисяч посилань і не може мати розмір більше 10 Мбайт , тому для великих сайтів потрібно розбивати карту сайту на кілька файлів. У таких випадках потрібно вказувати в robots.txt посилання на всі файли ( кожен - з нового рядка) .
Sitemap: http://mysite/sitemap.xml
Sitemap: http://mysite/sitemap1.xml
Sitemap: http://mysite/sitemap2.xml
Другий спосіб повідомити пошуковику про карту сайту - завантажити файл sitemap.xml через інтерфейс панелі веб- майстра на популярних пошукових ресурсах.