Ergebnis 1 bis 9 von 9

Frage zur robots.txt

  1. #1 Zitieren
    Ritter Avatar von Feuerstern
    Registriert seit
    Sep 2007
    Beiträge
    1.814
    Hallo Leute,
    ich habe eine kleine Seite gebastelt. Diese nutzt die Rewrite Engine um z.B. aus URL/about -> URL/about.php zu machen. auf der Seite wird auch nur auf die geänderten URLS verlinkt (welche dann von der Rewrite Engine wieder zur richtigen Adresse geändert werden). Wenn ich nun möchte das z.b. die about Seite nicht gecrawlt wird, kann ich diese per Disallow in der robots.txt ausschließen. Doch welchen Link nehme ich da?
    Den eigentlichen Datei Namen, also about.php oder den Link auf dem die Seite eig erreichbar sein soll, also nur /about?

    Außerdem habe ich ein paar Unterverzeichnisse mit PHP Skripten komplett per "deny all" in der .htaccess nach außen hin gesperrt. Ist es dann noch nötig diese nochmal in der robots.txt anzugeben? Auf der Seite selbst wird nicht auf die gesperrten Seiten verlinkt.

    Grüße
    Feuerstern ist offline

  2. #2 Zitieren
    Tieftöner Avatar von Lookbehind
    Registriert seit
    Dec 2007
    Beiträge
    15.176
    Zitat Zitat von Feuerstern Beitrag anzeigen
    ...
    Den eigentlichen Datei Namen, also about.php oder den Link auf dem die Seite eig erreichbar sein soll, also nur /about?
    Theoretisch sollte /about reichen, weil das alles ist, was die Suchmaschine davon sieht. Es tut aber nicht weh, einfach beides zu sperren.

    Am Ende des Tages musst du dich ohnehin darauf verlassen, dass der Crawler die robots.txt auch respektiert.
    Zitat Zitat von Feuerstern Beitrag anzeigen
    Außerdem habe ich ein paar Unterverzeichnisse mit PHP Skripten komplett per "deny all" in der .htaccess nach außen hin gesperrt. Ist es dann noch nötig diese nochmal in der robots.txt anzugeben? ...
    Nein, da kann dann ja eh keiner drauf zugreifen.
    Lookbehind ist offline

  3. #3 Zitieren
    Held Avatar von Satans Krümelmonster
    Registriert seit
    Aug 2007
    Beiträge
    5.797
    Ich würde in deinem Fall auf die robots.txt verzichten. Die Crawler sollten sich nämlich an die HTTP-Statuscodes halten.

    Wenn du also /about mit einem 301-Statuscode auf /about.php (auch wenn ich dir aus Gründen der Nutzererfahrung zu der anderen Richtung raten würde) weiterleitest, ignoriert der Crawler /about komplett. Und sämtliches Pagerank wird außerdem auf /about.php verschoben.

    Gleiches gilt für deny all. Da bekommt der Crawler ein 403-Antwort. Auch hier ignoriert er somit den Content komplett ohne die robots.txt überhaupt zu verwenden.
    Satans Krümelmonster ist offline

  4. #4 Zitieren
    Ritter Avatar von Feuerstern
    Registriert seit
    Sep 2007
    Beiträge
    1.814
    Danke für eure Antworten.

    Zitat Zitat von Satans Krümelmonster Beitrag anzeigen
    Ich würde in deinem Fall auf die robots.txt verzichten. Die Crawler sollten sich nämlich an die HTTP-Statuscodes halten.

    Wenn du also /about mit einem 301-Statuscode auf /about.php (auch wenn ich dir aus Gründen der Nutzererfahrung zu der anderen Richtung raten würde) weiterleitest, ignoriert der Crawler /about komplett. Und sämtliches Pagerank wird außerdem auf /about.php verschoben.

    Gleiches gilt für deny all. Da bekommt der Crawler ein 403-Antwort. Auch hier ignoriert er somit den Content komplett ohne die robots.txt überhaupt zu verwenden.
    Ich leite nicht direkt weiter. Der Nutzer sieht weiterhin nur /about , aber intern wird auf dem Server about.php aufgerufen. Der ursprüngliche Gedanke dahinter war, dass bei dynamischen Content die Get Parameter nicht mehr so unschön sind z.b. statt "article.php?article_id=4" lauter der Link nun "article/kategorie/4-titel+des+artikels".
    Feuerstern ist offline

  5. #5 Zitieren
    Held Avatar von Satans Krümelmonster
    Registriert seit
    Aug 2007
    Beiträge
    5.797
    Zitat Zitat von Feuerstern Beitrag anzeigen
    Ich leite nicht direkt weiter. Der Nutzer sieht weiterhin nur /about , aber intern wird auf dem Server about.php aufgerufen.
    Genau das würde ich an deiner Stelle nicht machen. Man sollte eine Seite immer nur unter einer URL verfügbar machen. Und da solltest du dich halt entscheiden, ob du /about oder /about.php haben willst (wie gesagt, ich rate zu /about) und das andere dann mit nem 301-Code weiterleiten. Dann musst du dir keine Sorgen um die Suchmaschinen machen und der User kann sich eventuell die URL auch besser merken.
    Satans Krümelmonster ist offline

  6. #6 Zitieren
    Tieftöner Avatar von Lookbehind
    Registriert seit
    Dec 2007
    Beiträge
    15.176
    Zitat Zitat von Satans Krümelmonster Beitrag anzeigen
    Genau das würde ich an deiner Stelle nicht machen. Man sollte eine Seite immer nur unter einer URL verfügbar machen.
    ...
    Macht er doch ...
    Mal abgesehen davon, was wäre denn so schlimm daran?
    Lookbehind ist offline

  7. #7 Zitieren
    Held Avatar von Satans Krümelmonster
    Registriert seit
    Aug 2007
    Beiträge
    5.797
    Zitat Zitat von Lookbehind Beitrag anzeigen
    Macht er doch ...
    Nein, macht er nicht.
    Seine Seite ist sowohl über /about als auch über about.php aufrufbar.
    Mal abgesehen davon, was wäre denn so schlimm daran?
    Wegen duplicate contents: https://support.google.com/webmaster...er/66359?hl=de

    Die entsprechende Filterung bewirkt beispielsweise, dass bei einer Website mit jeweils einer "normalen" Version und einer "druckbaren" Version der einzelnen Artikel nur eine der beiden Versionen [...] angezeigt wird
    Das ist ja genau das, was Feuerstern nicht will: Google entscheiden lassen, was genommen wird.
    Außerdem kann es sein, dass Google einen Betrugsversuch erkennt (da man nicht weiß, worauf Google hier achtet, kann man natürlich auch zu den false positives gehören), man aus dem Index geschmissen wird („In den seltenen Fällen, in denen wir annehmen müssen, dass duplizierter Content mit der Absicht angezeigt wird, das Ranking zu manipulieren oder unsere Nutzer zu täuschen, nehmen wir die entsprechenden Korrekturen am Index und Ranking der betreffenden Websites vor. Infolgedessen werden diese Websites unter Umständen in den Suchergebnissen niedriger eingestuft oder sogar aus dem Google-Index entfernt und damit nicht mehr in den Suchergebnissen angezeigt.“)

    Außerdem wird das bolckieren mittels robots.txt nicht empfohlen (das ist ja die eigentliche Frage im Titel):
    Das Blockieren des Crawler-Zugriffs auf duplizierte Inhalte auf Ihrer Website durch eine robots.txt-Datei oder sonstige Methoden wird nicht mehr empfohlen.
    Satans Krümelmonster ist offline

  8. #8 Zitieren
    Ritter Avatar von Feuerstern
    Registriert seit
    Sep 2007
    Beiträge
    1.814
    Zitat Zitat von Satans Krümelmonster Beitrag anzeigen
    Nein, macht er nicht.
    Seine Seite ist sowohl über /about als auch über about.php aufrufbar.
    Abrufbar schon, allerdings wird about.php nirgendwo verlinkt oder verwendet. Um auf about.php zu kommen müsste die Suchmaschine selbständig darauf kommen das .php wieder dran zuhängen. Allerdings habe ich auch kein Problem damit wen die Seite nicht mehr über about.php abrufbar ist und nur noch über /about. Dachte halt nur nicht das das nötig ist.^^
    Darüber hinaus gebe ich im header auch noch die Kanonische URLs an, was in diesem Fall dann /about wäre. Also wenn google zufällig doch irgendwie auf about.php kommt würde das Tag dem Robot darauf hinweisen das es sich um ein duplicat von /about handelt:
    https://support.google.com/webmaster...r/139066?hl=de
    Feuerstern ist offline

  9. #9 Zitieren
    Held Avatar von Satans Krümelmonster
    Registriert seit
    Aug 2007
    Beiträge
    5.797
    Zitat Zitat von Feuerstern Beitrag anzeigen
    Abrufbar schon, allerdings wird about.php nirgendwo verlinkt oder verwendet. Um auf about.php zu kommen müsste die Suchmaschine selbständig darauf kommen das .php wieder dran zuhängen. Allerdings habe ich auch kein Problem damit wen die Seite nicht mehr über about.php abrufbar ist und nur noch über /about. Dachte halt nur nicht das das nötig ist.^^
    Sobald irgendwer mit Chrome auf die Seite geht, kennt Google die URL.
    Darüber hinaus gebe ich im header auch noch die Kanonische URLs an, was in diesem Fall dann /about wäre. Also wenn google zufällig doch irgendwie auf about.php kommt würde das Tag dem Robot darauf hinweisen das es sich um ein duplicat von /about handelt:
    https://support.google.com/webmaster...r/139066?hl=de
    Achso, das wusste ich nicht. Dann kannst du dir das alles eigentlich sparen.
    Satans Krümelmonster ist offline

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •