При создании и последующем мониторинге сайтов всегда учитываются инструкции из файла robots.txt.

О файле robots.txt. Стандарт исключений для роботов (robots.txt) — файл ограничения доступа роботов к содержимому на http-сервере. Файл должен находиться в корне сайта (то есть иметь путь относительно имени сайта /robots.txt). При наличии нескольких поддоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps. Подробнее на wikipedia.org.

Учет инструкций в robots.txt в SORGE позволяет более точно строить актуальную схему сайта, игнорируя разделы, которые владельцы сайтов считают малозначимыми.

Учитываются только инструкции, явно обозначенные для поисковых систем Google, Яндекс, Bing и др. (User-agent: *). Инструкции, в которых обозначены малопопулярные поисковые системы вроде Rambler, при этом игнорируются.

В самих инструкциях учитываются только команды Allow (разрешить к мониторингу) и Disallow (запретить к мониторингу).  Если на сайте нет инструкций в robots.txt или нет самого файла, на проекте будут мониториться все страницы.

Важный момент при создании проектов с блокирующей весь сайт инструкцией.

При создании проекта сервис автоматически проверяет наличие файла robots.txt на сайте, и присутствие в нем команды Disallow: / (блокировка индексирования содержимого всего сайта). Если команда обнаруживается, тогда в мастере появляется окно с предупреждением, что на сайте содержится инструкция блокировки содержимого. Вы можете создать новый проект или нажать кнопку «Игнорировать» — в этом случае проект будет создан, но любые инструкции для созданного проекта будут полностью игнорироваться.

Модальное окно
Окно, предупреждающее наличии в robots.txt запрещающей инструкции для  индексирования сайта.

 

Важный момент при ручной загрузке ссылок.

Все ссылки загружаемые в ручном режиме, будут игнорировать правила в robots.txt, поскольку вы указали их для мониторинга явным образом.

Если вы хотите в процессе мониторинга отключить robots.txt для конкретного сайта, обратитесь в службу поддержки.

Читать далее: Список исправлений и улучшений

Я знаю как улучшить эту страницу документации