Scheinbar hat sich die JK PHOTOAGENCY, http://www.18x24.com, einen kleinen Webcrawler stricken lassen, der nun offenbar Webseiten nach Bildern dieser Agentur durchsucht.
Im Logfile für adminblogger.de schlug der Crawler dieser Agentur am Mittwoch auf und ignorierte dreist die robots.txt:
xxx.227.xx.83 - - [04/Oct/2006:19:11:36 +0200] "GET / HTTP/1.0" 302 285 "http://www.18x24.com" "FOTOCHECKER"
xxx.227.xx.83 - - [04/Oct/2006:19:11:36 +0200] "GET /blog/ HTTP/1.0" 200 50056 "http://www.18x24.com" "FOTOCHECKER"
Auf mindestens einer weiteren Domain von mir war der Bot schon am 1. und 2. Oktober unterwegs - natürlich wieder, ohne die robots.txt abzurufen.
Falls hier rein zufällig ein Verantwortlicher von JK PHOTOAGENCY mitliest: Geben Sie Ihrem techn. Verantwortlichen bitte einen Wink mit diesem Zaunpfahl. Danke.
{ 4 } Comments
# robots.txt fuer http://www.adminblogger.de
# Fuck You
Gibts es für Apache nicht irgendwelche Optionen, die bestimmte User-Agent blockieren? Das wäre doch auch eine Lösung, wenn auch unbefriegend.
Das gibt es - man kann mit SetEnvIf Variablen setzen, wenn z.B. der User-Agent xyz enthält und dann später alle Requests blocken, wenn diese Variable existiert.
Man könnte aber in diesem Fall einfacher mit deny from a.b.c.d den Crawler blocken.
Die robots.txt ist ja auch nur eine Bitte, an die sich die Spider halten sollten - wenn man natürlich die robots.txt nicht einmal abruft ...
Gruß,
Marcel.
War bei mir heute auch in den Logs...Ich vermute, das es ein Crawler ist, der nach urheberrechtlich geschützen Bilder sucht - wozu kann man sich ja in der heutigen Zeit denken