badbots — «плохие» боты

Решил составить список современных «плохих» ботов. Большинство статей и списков в интернете уже очень устарели. Сделаем свой список :-) .

Список «плохих»
ботов (badbots):
Список юзерагентов (User-agent): Запрет от авторов
ботов (
robots.txt):
AhrefsBot Mozilla/5.0 (compatible; AhrefsBot/5.0; +//ahrefs.com/robot/) User-agent: AhrefsBot
Disallow: /
MJ12bot Mozilla/5.0 (compatible; MJ12bot/v1.4.3; //www.majestic12.co.uk/bot.php?+) User-agent: MJ12bot
Disallow: /
Detectify Mozilla/5.0 (compatible; Detectify) +https://detectify.com/bot/ User-agent: Detectify
Disallow: /
DotBot Mozilla/5.0 (compatible; DotBot/1.1; //www.dotnetdotcom.org/, crawler@dotnetdotcom.org) User-agent: dotbot
Disallow: /
Riddler Riddler (//riddler.io/about) User-agent: Riddler
Disallow: /
SemrushBot Mozilla/5.0 (compatible; SemrushBot/0.97; +//www.semrush.com/bot.html) User-agent: SemrushBot
Disallow: /
LinkpadBot Mozilla/5.0 (compatible; LinkpadBot/1.06; +//www.linkpad.ru) User-agent: LinkpadBot
Disallow: /
BLEXBot Mozilla/5.0 (compatible; BLEXBot/1.0; +//webmeup-crawler.com/) User-agent: BLEXBot
Disallow: /
FlipboardProxy Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.2) Gecko/20100115 Firefox/3.6 (FlipboardProxy/1.1; +//flipboard.com/browserproxy) User-agent: FlipboardProxy
Disallow: /
aiHitBot Mozilla/5.0 (compatible; aiHitBot/2.9; +https://www.aihitdata.com/about) User-agent: aiHitBot
Disallow: /
trovitBot Mozilla/5.0 (compatible; trovitBot 1.0; +//www.trovit.com/bot.html) User-agent: trovitBot
Disallow: /
BUbiNG BUbiNG (+http://law.di.unimi.it/BUbiNG.html) User-agent: BUbiNG
Disallow: /
MauiBot MauiBot (crawler.feedback+wc@gmail.com) User-agent: MauiBot
Disallow: /

Однако почти все боты не реагируют на правила указанные в robots.txt, поэтому есть смысл полностью закрыть им доступ, т.к. часто боты создают огромное количество запросов к сайту, создавая тем самым высокую нагрузку на сервер хостеру. Как следствие — временная блокировка доступа к сайту.
Исправляем — открываем корневой .htaccess и добавляем в начало:

RewriteCond %{HTTP_USER_AGENT} AhrefsBot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} MJ12bot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} Detectify
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} dotbot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} Riddler
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} SemrushBot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} LinkpadBot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} BLEXBot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} FlipboardProxy
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} aiHitBot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} trovitBot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} BUbiNG
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} MauiBot
RewriteRule (.*) - [F,L]

После добавления запрещающих правил в .htaccess, в логах доступа сайта должен быть виден 403 ответ на запросы ботов.
Профит :)

17 комментариев

Аватар

Константин on 01.04.2016 at 12:46.

SemRush уже достал, вообще никакие запреты не слушает. Бесполезно его в файлы robots и htaccess прописывать. Он их игнорит по полной.

Ответить

kgtu5

kgtu5 on 09.04.2016 at 09:11.

запрет в .htaccess хорошо помогает, главное корректно настроить

Ответить

Аватар

Виктор on 19.04.2016 at 16:55.

А есть список IP-адресов этих сервисов? Есть подозрения, что они могут представляться обычным браузером для сбора инфы.

Ответить

kgtu5

kgtu5 on 19.04.2016 at 17:21.

Виктор, IP адреса могут меняться, смысла от списка IP мало.
Анализируйте access.log вашего сайта и блокируйте особо надоедливых «посетителей» вручную.

Ответить

Аватар

Валерий on 05.08.2017 at 23:39.

Подтверждаю, выцепил больше десятка различных ip, это при том, что пробовал блокировать по четвертой подмаске, то есть умножайте этот десяток на 255 =)

Ответить

Аватар

IdeaFix on 01.01.2017 at 02:25.

Банить AhrefsBot, MajesticSeo и SEMrush не стоит. По крайней мере ставить их в один список с хрен пойми чем.
Всё-таки, ахрефс и маджестик — это мастхэв инструменты серьезных сеошников и договориться с ними посредством robots.txt можно.
Хотя, если хостинг дохлый и важен только яндекс — приходится банить всё в круг.

На ahrefs и semrush ориентируются некоторые отраслевые (академические например) рейтинги и порой приходится выдерживать 6-8 миллионов запросов в сутки :)

По поему опыту адреса в общем не меняются и у того же semrush они постоянны в течении пяти лет минимум, но барить по адресам мне приходилось лишь TurnitinBot (диапазоны указаны на сайте) и scrapinghub.

Кстати, держатели сервиса обычно очень ыбстро реагируют на abuse, особенно когда abuse отправляется одновременно и хостинг провайдеру, и регистратору домена и собственно админу сервиса ;)

Ответить

kgtu5

kgtu5 on 09.01.2017 at 19:56.

IdeaFix, к сожалению, почти все хостеры предоставляют одинаково мало ресурсов как на обычных так и на «vip» тарифах хостинга и 6-8 миллионов запросов это перебор — как следствие отключение сайта из-за превышений лимитов.
не правильно или вообще не настроенный/не подготовленный впс не выдержит и 10% от 6-8 миллионов запросов — опять же вероятно отключение ноды.
везде свои ограничения, поэтому приходится ограничивать либо банить, да и отраслевые (академические например) рейтинги для 90% сайтов мало что значат ;-)
естественно к каждому конкретному сайту нужен отдельный подход и анализ, а делать все что пишут в интернетах надо с умом и осторожностью, дабы не навредить :-) тут опять же анализ, но уже результатов :middlefinger:

Ответить

Аватар

Семён on 06.02.2017 at 14:15.

Эти барыги по 2000 заходов иногда делают, жрут трафик и мешают поисковым роботам и посетителям снижая скорость загрузки.
Банить однозначно!

RewriteCond %{HTTP_USER_AGENT} (^$|Semrush|Java/|MSIE.*[1-7]) [NC]
RewriteRule (.*) — [F,L]

Ответить

Аватар

Milana on 28.03.2017 at 14:35.

Бот BLEXBot, пытается делать запросы «Non-English Characters», а именно украинский и китайские символы. Придерживается тайм-аута 4-5 сек. по robot.txt_ но потом долбит по несуществующим адресам. Сильно смахивает на парсер.

Ответить

Аватар

Артур on 01.04.2017 at 19:26.

Linkpadbot находит на сайте 1334 внешние ссылки, которых уже длительный период реально нету (от кода счетчиков и т.д., хотя даже те, которые есть, закрыты noindex, noufollow). Вопрос в том, стоит ли закрывать этому роботу доступ или обратиться на сайт сеошников? И если закрыть, то как?

Ответить

admin

admin on 03.04.2017 at 19:48.

закрывать чтобы «закрыть» смысла нет :shake:
список плохих ботов, приведенный выше — это те боты, которые очень часто создают существенную нагрузку на сайт и сервер, на котором он расположен :middlefinger: иногда количество запросов к сайту от таких ботов исчисляется 10ми тысяч.

Ответить

Аватар

Борис on 15.03.2018 at 19:29.

Спасибо огромное! Заглянул в логи дохленького сайта, полсотни посещалка, там 6 гигов накручено 6 гигов трафика двумя ботами SemrushBot — 2 гиг, и bubing — 4гиг… Нагрузка СП превысила 200% от допустимой уже к обеду… :arrow:

Ответить

admin

admin on 16.03.2018 at 14:58.

Борис, можно поподробнее — что за бот bubing ?
Каким юзерагентом представляется? :smoke:

Ответить

Аватар

Александр on 10.04.2018 at 22:27.

MauiBot — положил два сервака
MauiBot (crawler.feedback+wc@gmail.com)
940 300 обращения

Ответить

admin

admin on 11.04.2018 at 08:34.

добавим ;-)

Ответить

Аватар

ArturoChisy on 12.06.2018 at 23:32.

Подскажите советом

Ответить

Аватар

Тарасыч on 18.12.2018 at 18:09.

А это что за боты и нужно ли их блокировать?

Unknown robot identified by \*bot
Unknown robot identified by bot\*

Ответить

Скажите свое мнение

ваш email не публикуется. обязательно *

;-) :yawn: :whew: :toivo: :tmi: :time: :thinking: :talking: :sweating: :swear: :sun: :star: :smoke: :smirk: :sleepy: :skype: :shock: :shake: :rofl: :rain: :punch: :puke: :poolparty: :pizza: :phone: :party: :oops: :nod: :no: :ninja: :neutral: :nerd: :music: :muscle: :mrgreen: :movie: :mooning: :mmm: :middlefinger: :makeup: :mail: :mad: :lol: :lipssealed: :kiss: :itwashtme: :inlove: :idea: :hi: :heidy: :heart: :headbang: :happy: :handshake: :giggle: :fubar: :flower: :evilgrin: :emo: :dull: :drunk: :drink: :doh: :devil: :dance: :cry: :cool: :coffie: :clapping: :cash: :call: :cake: :bug: :brokenheart: :bow: :blush: :beer: :bear: :bandit: :arrow: :angry: :angel: :^) :???: :?: :-| :-o :-P :-D :-) :-( :!:

 

*

code

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.