robots.txt syntax

Dieses Thema im Forum "Hosting & Server" wurde erstellt von Romka, 30. August 2013 .

Schlagworte:
  1. 30. August 2013
    Zuletzt bearbeitet: 30. August 2013
    Ich habe momentan das Problem das einige Artikel im Google Shopping nicht angenommen werden weil scheinbar der Google Image Bot die Bilder nicht crawlen kann. Das komische ist das es bei 50% funktioniert und bei den restlichen Artikeln nicht. Dabei liegen alle Artikelbilder in einem Verzeichnis. (/media/img/product_img/img_big/)

    Da mein Unternehmen unbedingt eine Hosted Lösung nehmen wollte habe ich jetzt direkt keinen Zugriff auf die robots.txt. Der Anbieter meint es ist alles in Ordnung. Aber mir kommt das ganze etwas komisch vor.

    Die robots.txt sieht so aus:

    Code:
    User-agent: *
    Allow: /
    Disallow: /ajaxViews/
    Disallow: /components/
    Disallow: /designs/
    Disallow: /media/
    Disallow: /scripts/
    Disallow: /templates/
    
    User-agent: Googlebot
    Allow: /
    Disallow: /ajaxViews/
    Disallow: /components/
    Disallow: /designs/
    Disallow: /scripts/
    Disallow: /templates/
    Disallow: /media/flash/
    Disallow: /media/pdf/
    Disallow: /media/product_export/
    Disallow: /media/video/
    
    User-agent: Googlebot-image
    Allow: /
    Disallow: /ajaxViews/
    Disallow: /components/
    Disallow: /designs/
    Disallow: /scripts/
    Disallow: /templates/
    Disallow: /media/flash/
    Disallow: /media/pdf/
    Disallow: /media/product_export/
    Disallow: /media/video/
    
    Sitemap: https://www.********.de/sitemap.xml
    Zu meinen Fragen:

    1. Ist das Allow: / nicht total überflüßig? Ich dachte immer das mit der robots.txt nur Verzeichnisse ausgeschlossen werden und nicht explizit auf erlaubt einegstellt werden können.
    2. Kann es sein das Google Probleme wegen folgender Zeile hat?
    Code:
    User-agent: [B][COLOR="Red"]*[/COLOR][/B]
    Allow: /
    Disallow: /ajaxViews/
    Disallow: /components/
    Disallow: /designs/
    [B][COLOR="Red"]Disallow: /media/[/COLOR][/B]
    Disallow: /scripts/
    Disallow: /templates/
    3. Weiter unten wird explizit nochmal auf die Google Bots eingegangen. Dort wird das benötigte Verzeichniss auch nicht gesperrt, sondern nur die wo der Bot auch nichts zu suchen hat. Aber wird durch das "*" oben nicht bereits der gesamte Bildordner für ALLE Crawler geblockt? Geht der Crawler vllt von oben nach unten durch?

    Wäre nett wenn jemand helfen kann. BW ist natürlich wie immer drin.
     
  2. Video Script

    Videos zum Themenbereich

    * gefundene Videos auf YouTube, anhand der Überschrift.