Unknown robot (identified by bot followed by a space or one of the following characters _+:,.;/\-)
Развлекательный
проект
DUCENTI RU
2024
Unknown robot identified by bot followed by a space or one of the following characters... Блокируем неизвестного робота, который сильно грузит сайт. Логи не показывают какой именно робот заходит на сайт и осуществляет колоссальную нагрузку на сервер.
Перейти на главную страницу сайта
Unknown robot
Давайте разберемся, что же это за робот?
Unknown robot (identified by bot followed by a space or one of the following characters...)
Если посмотреть в Логах, в самом файле access_log станет понятно - это ни один робот, а несколько роботов. PetalBot и Adsbot/3.1 и другие.
Программа их в одну кучу записывает как один неизвестный робот. Вы думаете, что это один робот нагружает сайт, а на самом деле это может быть и десять роботов, которые не связаны друг с другом. Суммируется весь объем трафика этих роботов и выдается вам как огромная нагрузка якобы одного робота. Нагрузка такая обычно в гигабайтах - Гбайт Гб, Gbyte GB!
Правильная фраза должна быть такой Unknown robots (identified by bot followed by a space or one of the following characters...)
Реклама
Реклама
Реклама
Отслеживаем Unknown robots в логах
Как подключить Логи в вашем хостинге, для сайта, вы наверное знаете. Информации полно в интернете как это сделать.
Включили Логи, ждем день. За сутки Unknown robot будет зафиксирован в файле Логах. Не смотрим Логи на хостинге, там только покажут сколько было роботами ресурса взято - в моем случае Adsbot по 1.6 ГБ в день делал объем. При этом Yandexbot - 346 МБ объем в день. Хиты у Adsbot и Yandexbot было одинаково, примерно по 1105 хиты в сутки. Adsbot робот не отображается в Логах на хостинге!!!
Чтобы понять что парсит и нагружает наш сайт, надо:
Скачать на компьютер файл Логов, у меня это был файл access_log.
Открываем файл access_log с помощью блокнота. Я открыл данный файл с AkelPad блокнота.
Смотрим в файле с какого ip адреса идет нагрузка чаше всего - каких одних и тех же ip адресов много.
В моих Логах больше всего было таких строк:
ducenti.ru 173.231.59.196 - - [19/Feb/2021:09:18:00 +0300] "GET /book3english2number3page1 HTTP/1.0" 403 227 "https://ducenti.ru/" "Mozilla/5.0 (compatible; Adsbot/3.1)"
ducenti.ru 173.231.59.196 - - [19/Feb/2021:09:18:11 +0300] "GET /book4english2number4page1 HTTP/1.0" 403 227 "https://ducenti.ru/" "Mozilla/5.0 (compatible; Adsbot/3.1)"
ducenti.ru 173.231.59.196 - - [19/Feb/2021:09:18:21 +0300] "GET /book9english2number9page1 HTTP/1.0" 403 227 "https://ducenti.ru/" "Mozilla/5.0 (compatible; Adsbot/3.1)"
ducenti.ru 173.231.59.196 - - [19/Feb/2021:09:18:27 +0300] "GET /book31english2number31page1 HTTP/1.0" 403 229 "https://ducenti.ru/" "Mozilla/5.0 (compatible; Adsbot/3.1)"
ducenti.ru 173.231.59.196 - - [19/Feb/2021:09:18:34 +0300] "GET /book34english2number34page1 HTTP/1.0" 403 229 "https://ducenti.ru/" "Mozilla/5.0 (compatible; Adsbot/3.1)"
Реклама
Реклама
Реклама
Как заблокировать роботов нагружающих сайт
Я заблокировал робота Adsbot 3.1, который нагружал сервер через htaccess. PetalBot не стал блокировать, нагрузка от него маленькая.
Order Deny,Allow
Deny from 173.231.59.196 173.231.0.0/18
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} Adsbot
RewriteRule (.*) - [F,L]
Реклама
Реклама
Реклама
Adsbot
Не путайте Adsbot с AdsBot-Google-Mobile и AdsBot-Google. Это разные роботы. Рекламы Google на моем сайте нет!
В файле .htaccess у меня спамер робот Adsbot 3.1 умудрился обойти запрет. Было прописано так:
В логах Adsbot присутствовал не смотря на запрет при такой записи. То есть запрет нескольким ботам через выражение ИЛИ в одну строку не сработал. | - означает или, SemrushBot|Adsbot|MJ12bot читать как SemrushBot или Adsbot или MJ12bot
RewriteCond %{HTTP_USER_AGENT} (SemrushBot|Adsbot|MJ12bot|AhrefsBot|DotBot|Riddler|aiHitBot|SeznamBot) [NC]
RewriteRule .* - [F,L]
Изменил запись и Adsbot пропал с моего сайта!!!
RewriteCond %{HTTP_USER_AGENT} Adsbot
RewriteRule (.*) - [F,L]
И дополнительно по ip заблокировал Adsbot:
Deny from 5.188.45.39 173.231.59.196 173.231.0.0/18 88.206.10.43
Пару ip спамеров 5.188.45.39 и 88.206.10.43 туда же в блокировку.
Реклама
Реклама
Реклама
htaccess правильная запись
Order Deny,Allow
Deny from 173.231.59.196 173.231.0.0/18
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} Adsbot
RewriteRule (.*) - [F,L]
AddDefaultCharset utf-8
AddType 'text/html; charset=utf-8' .html .htm .shtml
Реклама
Реклама
Реклама
Unknown robot (identified by bot followed by a space or one of the following characters _+:,.;/\-)