Legtöbbször akkor, amikor le kell tiltania a hozzáférést SeekportBot vagy mások crawl bots egy weboldal esetén az okok egyszerűek. A webpók túl sok hozzáférést hajt végre rövid időn belül, és lekéri a webszerver erőforrásait, vagy olyan keresőmotorból érkezik, amelyben nem szeretné, hogy webhelye indexelve legyen.
Nagyon előnyös a crawBeleütköztem. Ezeket a webpókokat arra tervezték, hogy feltárják, feldolgozzák és indexeljék a weboldalak tartalmát a keresőmotorokban. A Google és a Bing olyan crawBeleütköztem. Vannak azonban olyan keresőmotorok is, amelyek robotok segítségével gyűjtenek adatokat a weboldalakról. Seekport az egyik ilyen keresőmotor, amely a crawa SeekportBot ler a weboldalak indexeléséhez. Sajnos néha túlzottan használja és felesleges forgalmat generál.
Tartalom
Mi az a SeekportBot?
SeekportBot egy web crawler a cég fejlesztette ki Seekport, amely Németországban található (de több ország IP-jét használja, beleértve Finnországot is). Ez a bot webhelyek feltérképezésére és indexelésére szolgál, hogy azok megjelenhessenek a keresőmotorok eredményei között. Seekport. Nem működő kereső, amennyire meg tudom ítélni. Legalábbis számomra semmilyen kulcskifejezésre nem adott eredményt.
SeekportBot Használat user agent:
"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"
Hogyan lehet blokkolni a hozzáférést a SeekportBothoz vagy máshoz crawEgy weboldalra kattintottam
Ha arra a következtetésre jutott, hogy ez a webpók vagy más, nem szükséges az egész webhelyet átvizsgálni, és szükségtelen forgalmat bonyolítani a webszerver felé, számos módszerrel blokkolhatja a hozzáférésüket.
Tűzfal a webszerver szintjén
Ezek tűzfalalkalmazások open-source amely operációs rendszerekre telepíthető Linux és több kritérium alapján konfigurálható a forgalom blokkolására. IP-cím, hely, portok, protokollok vagy felhasználói ügynök.
APF (Advanced Policy Firewall) egy olyan szoftver, amelyen keresztül szerver szinten blokkolhatja a nem kívánt botokat.
Mivel a SeekportBot és más webes pókok több IP-blokkot használnak, a leghatékonyabb blokkolószabály a "user agent". Tehát, ha blokkolni szeretné a hozzáférést SeekportBot útján APF, mindössze annyit kell tennie, hogy csatlakozik a webszerverhez ezen keresztül SSH, és adja hozzá a szűrőszabályt a konfigurációs fájlhoz.
1. Nyissa meg a konfigurációs fájlt a következővel: nano (vagy más kiadónál).
sudo nano /etc/apf/conf.apf
2. Keresse meg a következővel kezdődő sortIG_TCP_CPORTS” és adja hozzá a blokkolni kívánt felhasználói ügynököt a sor végére, majd egy vesszőt. Például, ha le akarja tiltani user agent "SeekportBot", a sornak így kell kinéznie:
IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"
3. Mentse el a fájlt, és indítsa újra az APF szolgáltatást.
sudo systemctl restart apf.service
A „SeekportBot” hozzáférés blokkolva lesz.
Szűrő web crawls a Cloudflare segítségével – A SeekportBot hozzáférésének blokkolása
Számomra a Cloudflare segítségével ez tűnik a legbiztonságosabb és legkényelmesebb módszernek, amellyel különféle módokon korlátozhatja egyes botok hozzáférését egy webhelyhez. Az általam is alkalmazott módszer az esetben SeekportBot az online áruház forgalmának szűrésére.
Feltéve, hogy a webhelyet már hozzáadta a Cloudflare-hez, és a DNS-szolgáltatások aktiválva vannak (vagyis a webhely forgalma a Cloudflare-en keresztül megy), kövesse az alábbi lépéseket:
1. Nyissa meg Clouflare-fiókját, és lépjen arra a webhelyre, amelynek hozzáférését korlátozni szeretné.
2. Menjen ide: Security → WAF és adjunk hozzá egy új szabályt. Create rule.
3. Válasszon nevet az új szabálynak, Field: User Agent - Operator: Contains - Value: SeekportBot (vagy más botnév) – Choose action: Block - Deploy.

Néhány másodperc múlva az új szabály WAF (Web Application Firewall) kezd hatni.

Elméletileg beállítható, hogy a webpók milyen gyakorisággal ér el egy webhelyet robots.txt, de... ez csak elméletben.
User-agent: SeekportBot
Crawl-delay: 4
sok web crawlerii (a Bing és a Google kivételével) nem tartja be ezeket a szabályokat.
Összefoglalva, ha azonosít egy webet crawHa túlzottan hozzáfér az Ön webhelyéhez, a legjobb, ha teljesen letiltja a hozzáférését. Természetesen, ha ez a bot nem olyan keresőmotorból származik, amelyben szeretne jelen lenni.