SEO: archive.today blocken

Dieses Thema im Forum "Marketing & SEO" wurde erstellt von Creused, 20. November 2014 .

Schlagworte:
  1. 20. November 2014
    Hallo,

    sicherlicht kennt der ein oder andere archive.today - webpage capture
    Da dieser Bot weder die Robots.txt und noch den Eintrag "noindex" befolgt, will ich den nun aussperren.

    "Do you delete my stored page(s) ?

    Pages which violate our hoster's rules (cracks, ♂️♀️, etc) may be deleted. Also, completely empty pages (or pages which have nothing but text like “502 Server Timeout”) may be deleted."

    Die Frage ist nur.. wie?

    Hat da jemand eine Ahnung, wie ich das machen könnte?
     
  2. 20. November 2014
    AW: SEO: archive.today blocken

    Opt-out- oder Opt-in-Funktionen, z. B. mittels robots.txt oder HTML-meta-robots-Tag werden nicht angeboten. Nach Aussagen der Betreiber können Inhalte gelöscht werden, die den Geschäftsbedingungen des Webhosters von Archive.today widersprechen. Archive.today – Wikipedia

    Es gibt also nur eine Möglichkeit, den Bot in eine Falle zu locken und die IP oder ggf. Useragent zu blockieren.
     
  3. 20. November 2014
    AW: SEO: archive.today blocken

    User-Agent wird schwer...
    IP kann ich zumindest mal blocken, sofern´s nur ein Server ist, was ich aber nicht glaube.

    Für die, die´s interessiert:
    Code:
    ~URL~de:80 144.76.45.17 - - [20/Nov/2014:23:06:44 +0100] "GET /images/home.png HTTP/1.1" 200 933 "http://~URL~de/index.php" "Mozilla/5.0 (compatible; Windows NT 5.1; WOW64) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/535.19"
    
    Ist also ein Server bei Hetzner...
    Nja, dann sperr ich einfach mal die IP und send dem Webmaster und Hoster ne Abuse-Mail.
     
  4. Video Script

    Videos zum Themenbereich

    * gefundene Videos auf YouTube, anhand der Überschrift.