Ako zablokovať prístup k SeekportBot alebo inému crawKlikol som na webovú stránku

Väčšinou, keď potrebujete zablokovať prístup SeekportBot alebo iné crawl bots s webovou stránkou sú dôvody jednoduché. Webový pavúk robí príliš veľa prístupov v krátkom časovom období a vyžaduje zdroje webového servera, alebo pochádza z vyhľadávacieho nástroja, v ktorom nechcete, aby bol váš web indexovaný.

Je to veľmi výhodné pre webovú stránku, ktorú navštevuje crawNarazil som do neho. Tieto webové pavúky sú navrhnuté tak, aby skúmali, spracovávali a indexovali obsah webových stránok vo vyhľadávačoch. Google a Bing používajú takéto crawNarazil som do neho. Existujú však aj vyhľadávače, ktoré na zber údajov z webových stránok využívajú roboty. Seekport je jedným z týchto vyhľadávačov, ktorý používa crawnástroj SeekportBot na indexovanie webových stránok. Bohužiaľ to niekedy nadmerne využíva a vytvára zbytočnú návštevnosť.

Čo je SeekportBot?

SeekportBot je web crawler vyvinuté spoločnosťou Seekport, ktorá má sídlo v Nemecku (ale používa IP z viacerých krajín vrátane Fínska). Tento robot sa používa na prehľadávanie a indexovanie webových stránok, aby sa mohli zobrazovať vo výsledkoch vyhľadávačov. Seekport. Nefunkčný vyhľadávač, pokiaľ viem. Aspoň mi to nevrátilo žiadne výsledky pre žiadnu kľúčovú frázu.

SeekportBot použitie user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Ako zablokovať prístup k SeekportBot alebo inému crawKlikol som na webovú stránku

Ak ste dospeli k záveru, že tento alebo iný webový pavúk nie je potrebné skenovať celý váš web a zbytočne tak naťahovať webový server, máte niekoľko spôsobov, ako mu môžete zablokovať prístup.

Firewall na úrovni webového servera

Sú to aplikácie brány firewall open-source ktoré je možné nainštalovať do operačných systémov Linux a môže byť nakonfigurovaný tak, aby blokoval prevádzku na základe niekoľkých kritérií. IP adresa, umiestnenie, porty, protokoly alebo používateľský agent.

APF (Advanced Policy Firewall) je taký softvér, prostredníctvom ktorého môžete blokovať nechcených robotov na úrovni servera.

Pretože SeekportBot a ďalší webový pavúk používajú viacero blokov adries IP, najúčinnejšie pravidlo blokovania je založené na „user agent". Takže, ak chcete zablokovať prístup SeekportBot pomocou APF, všetko, čo musíte urobiť, je pripojiť sa k webovému serveru cez SSHa pridajte pravidlo filtra do konfiguračného súboru.

1. Otvorte konfiguračný súbor pomocou nano (alebo iného vydavateľa).

sudo nano /etc/apf/conf.apf

2. Vyhľadajte riadok, ktorý začína „IG_TCP_CPORTS“ a na koniec tohto riadku pridajte používateľského agenta, ktorého chcete zablokovať, za ktorým nasleduje čiarka. Napríklad, ak chcete blokovať user agent "SeekportBot", riadok by mal vyzerať takto:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Uložte súbor a reštartujte službu APF.

sudo systemctl restart apf.service

Prístup „SeekportBot“ bude zablokovaný.

Filtrovať web crawls s pomocou Cloudflare – Blokovať prístup SeekportBot

S pomocou Cloudflare sa mi to javí ako najbezpečnejšia a najpohodlnejšia metóda, ktorou môžete rôznym spôsobom obmedziť prístup niektorých robotov na webovú stránku. Metóda, ktorú som použil aj v prípade SeekportBot na filtrovanie návštevnosti internetového obchodu.

Za predpokladu, že už máte web pridaný do Cloudflare a sú aktivované služby DNS (to znamená, že návštevnosť webu prechádza cez Cloudflare), postupujte podľa nasledujúcich krokov:

1. Otvorte svoj účet Clouflare a prejdite na webovú stránku, pre ktorú chcete obmedziť prístup.

2. Prejdite na: Security → WAF a pridajte nové pravidlo. Create rule.

3. Vyberte názov nového pravidla, Field: User Agent - Operator: Contains - Value: SeekportBot (alebo iný názov robota) – Choose action: Block - Deploy.

Ako zablokovať prístup SeekportBot
Zablokujte prístup k SeekportBot z Cloudflare

Za pár sekúnd nové pravidlo WAF (Web Application Firewall) začína pôsobiť.

Udalosti brány firewall v Cloudflare
Udalosti brány firewall v Cloudflare

Teoreticky je možné nastaviť frekvenciu, s ktorou webový pavúk pristupuje na stránku robots.txt, ale...to je len teoreticky.

User-agent: SeekportBot
Crawl-delay: 4

Mnoho web crawlerii (okrem Bing a Google) nedodržiavajú tieto pravidlá.

Na záver, ak identifikujete web crawAk nadmerne pristupuje na vašu stránku, je najlepšie mu prístup úplne zablokovať. Samozrejme, ak tento robot nepochádza z vyhľadávača, v ktorom máte záujem byť prítomný.

Zanietený technológiou, s radosťou píšem na StealthSettings.com od roku 2006. Mám bohaté skúsenosti s operačnými systémami: macOS, Windows a Linux, ako aj s programovacími jazykmi a platformami pre blogovanie (WordPress) a pre online obchody (WooCommerce, Magento, PrestaShop).

Ako » čistý Surfing » Ako zablokovať prístup k SeekportBot alebo inému crawKlikol som na webovú stránku
Pridať komentár