So blockieren Sie Suchmaschinen (mit Bildern)

Inhaltsverzeichnis:

So blockieren Sie Suchmaschinen (mit Bildern)
So blockieren Sie Suchmaschinen (mit Bildern)

Video: So blockieren Sie Suchmaschinen (mit Bildern)

Video: So blockieren Sie Suchmaschinen (mit Bildern)
Video: Dateifreigabe von Mac zu Windows | macOS Tutorial | Marcel Scholz 2024, April
Anonim

Suchmaschinen sind mit Robotern, auch Spiders oder Bots genannt, ausgestattet, die Webseiten crawlen und indizieren. Wenn sich Ihre Website oder Seite in der Entwicklung befindet oder sensible Inhalte enthält, möchten Sie möglicherweise verhindern, dass Bots Ihre Website crawlen und indizieren. Erfahren Sie, wie Sie ganze Websites, Seiten und Links mit robots.txt-Dateien blockieren und bestimmte Seiten und Links mit HTML-Tags blockieren. Lesen Sie weiter, um zu erfahren, wie Sie bestimmte Bots daran hindern, auf Ihre Inhalte zuzugreifen.

Schritte

Methode 1 von 2: Suchmaschinen mit robots.txt-Dateien blockieren

576315 1
576315 1

Schritt 1. Verstehen Sie robots.txt-Dateien

Eine robots.txt-Datei ist eine einfache oder ASCII-Textdatei, die Suchmaschinen-Spidern mitteilt, worauf sie auf Ihrer Website zugreifen dürfen. Dateien und Ordner, die in einer robots.txt-Datei aufgelistet sind, dürfen von Suchmaschinen-Spidern nicht gecrawlt und indiziert werden. In folgenden Fällen benötigen Sie möglicherweise eine robots.txt-Datei:

  • Sie möchten bestimmte Inhalte von Suchmaschinen-Spidern blockieren.
  • Sie entwickeln eine Live-Site und sind nicht darauf vorbereitet, dass Suchmaschinen-Spider die Site crawlen und indizieren
  • Sie möchten den Zugriff auf seriöse Bots einschränken.
576315 2
576315 2

Schritt 2. Erstellen und speichern Sie eine robots.txt-Datei

Starten Sie zum Erstellen der Datei einen Nur-Text-Editor oder einen Code-Editor. Speichern Sie die Datei als: robots.txt. Der Dateiname muss aus Kleinbuchstaben bestehen.

  • Vergessen Sie nicht das „s“.
  • Wählen Sie beim Speichern der Datei die Erweiterung „'.txt“'. Wenn Sie Word verwenden, wählen Sie die Option "Nur Text".
576315 3 1
576315 3 1

Schritt 3. Schreiben Sie eine robots.txt-Datei mit vollständiger Sperre

Es ist möglich, jeden seriösen Suchmaschinen-Spider vom Crawlen und Indexieren Ihrer Website mit einer "vollständigen Sperre" robots.txt zu blockieren. Schreiben Sie die folgenden Zeilen in Ihre Textdatei:

    User-Agent: * Verbieten: /

  • Die Verwendung einer robots.txt-Datei mit vollständiger Sperre wird nicht dringend empfohlen. Wenn ein Bot wie Bingbot diese Datei liest, wird Ihre Website nicht indiziert und die Suchmaschine zeigt Ihre Website nicht an.
  • User-Agents: Dies ist ein anderer Begriff für Suchmaschinen-Spider oder Roboter
  • *: das Sternchen bedeutet, dass der Code für alle User-Agents gilt
  • Nicht zulassen: /: Der Schrägstrich zeigt an, dass die gesamte Website für Bots gesperrt ist
576315 4 1
576315 4 1

Schritt 4. Schreiben Sie eine robots.txt-Datei mit bedingtem Zulassen

Anstatt alle Bots zu blockieren, sollten Sie in Betracht ziehen, bestimmte Spider aus bestimmten Bereichen Ihrer Website zu blockieren. Zu den gängigen Befehlen zum bedingten Zulassen gehören:

  • Einen bestimmten Bot blockieren: Ersetzen Sie die Sternchen neben User-Agent mit Googlebot, googlebot-news, Googlebot-Bild, Bingbot, oder teoma.
  • Ein Verzeichnis und seinen Inhalt blockieren:

    Benutzeragent: * Verbieten: /sample-directory/

  • Eine Webseite blockieren:

    User-Agent: * Verbieten: /private_file.html

  • Ein Bild blockieren:

    User-Agent: googlebot-image Disallow: /images_mypicture.jpg

  • Alle Bilder blockieren:

    User-Agent: googlebot-image Verbieten: /

  • Blockieren Sie ein bestimmtes Dateiformat:

    Benutzer-Agent: * Verbieten: /p*.gif$

576315 5
576315 5

Schritt 5. Ermutigen Sie Bots, Ihre Website zu indizieren und zu crawlen

Viele Leute möchten Suchmaschinen-Spider willkommen heißen, anstatt sie zu blockieren, weil sie möchten, dass ihre gesamte Website indiziert wird. Um dies zu erreichen, haben Sie drei Möglichkeiten. Erstens können Sie die Erstellung einer robots.txt-Datei deaktivieren. Wenn der Robot keine robots.txt-Datei findet, wird er weiterhin Ihre gesamte Website crawlen und indizieren. Zweitens können Sie eine leere robots.txt-Datei erstellen – der Robot findet die robots.txt-Datei, erkennt, dass sie leer ist, und fährt mit dem Crawlen und Indexieren Ihrer Website fort. Schließlich können Sie eine robots.txt-Datei mit vollständiger Zulassung schreiben. Verwenden Sie den Code:

    User-Agent: * Verbieten:

  • Wenn ein Bot wie der Googlebot diese Datei liest, kann er Ihre gesamte Website besuchen.
  • User-Agents: Dies ist ein anderer Begriff für Suchmaschinen-Spider oder Roboter
  • *: das Sternchen bedeutet, dass der Code für alle User-Agents gilt
  • Verbieten: Der leere Befehl disallow zeigt an, dass auf alle Dateien und Ordner zugegriffen werden kann
576315 6
576315 6

Schritt 6. Speichern Sie die TXT-Datei im Stammverzeichnis Ihrer Domain

Nachdem Sie die Datei robots.txt geschrieben haben, speichern Sie die Änderungen. Laden Sie die Datei in das Stammverzeichnis Ihrer Site hoch. Wenn Ihre Domain beispielsweise. ist www.ihredomain.com, platzieren Sie die robots.txt-Datei unter www.ihredomain.com/robots.txt.

Methode 2 von 2: Suchmaschinen mit Meta-Tags blockieren

576315 7
576315 7

Schritt 1. Verstehen Sie HTML-Robots-Meta-Tags

Mit dem Robots-Meta-Tag können Programmierer Parameter für Bots oder Suchmaschinen-Spider einstellen. Diese Tags werden verwendet, um Bots daran zu hindern, eine gesamte Site oder nur Teile der Site zu indizieren und zu crawlen. Sie können diese Tags auch verwenden, um einen bestimmten Suchmaschinen-Spider daran zu hindern, Ihre Inhalte zu indizieren. Diese Tags erscheinen im Kopf Ihrer HTML-Datei.

Diese Methode wird häufig von Programmierern verwendet, die keinen Zugriff auf das Stammverzeichnis einer Website haben

576315 8
576315 8

Schritt 2. Blockieren Sie Bots von einer einzelnen Seite

Es ist möglich, alle Bots daran zu hindern, eine Seite zu indizieren oder den Links einer Seite zu folgen. Dieses Tag wird häufig verwendet, wenn eine Live-Site entwickelt wird. Sobald die Site fertig ist, wird dringend empfohlen, dieses Tag zu entfernen. Wenn Sie das Tag nicht entfernen, wird Ihre Seite nicht indiziert oder über Suchmaschinen durchsuchbar.

  • Sie können Bots daran hindern, die Seite zu indizieren und einem der Links zu folgen:
  • Sie können alle Bots daran hindern, die Seite zu indizieren:
  • Sie können alle Bots daran hindern, den Links der Seite zu folgen:
576315 9
576315 9

Schritt 3. Erlauben Sie den Bots, eine Seite zu indizieren, aber folgen Sie nicht ihren Links

Wenn Sie den Bots erlauben, die Seite zu indizieren, wird die Seite indiziert; Wenn Sie verhindern, dass die Spider den Links folgen, wird der Linkpfad von dieser bestimmten Seite zu anderen Seiten unterbrochen. Fügen Sie die folgende Codezeile in Ihren Header ein:

576315 10
576315 10

Schritt 4. Lassen Sie die Suchmaschinen-Spider den Links folgen, aber nicht die Seite indizieren

Wenn Sie den Bots erlauben, den Links zu folgen, bleibt der Linkpfad von dieser bestimmten Seite zu anderen Seiten intakt; Wenn Sie die Indexierung der Seite einschränken, wird Ihre Webseite nicht im Index angezeigt. Fügen Sie die folgende Codezeile in Ihren Header ein:

576315 11
576315 11

Schritt 5. Blockieren Sie einen einzelnen ausgehenden Link

Um einen einzelnen Link auf einer Seite auszublenden, betten Sie a. ein rel Tag innerhalb des Link-Tags. Sie können dieses Tag verwenden, um Links auf anderen Seiten zu blockieren, die zu der bestimmten Seite führen, die Sie blockieren möchten.

    Link zur blockierten Seite einfügen

576315 12
576315 12

Schritt 6. Blockieren Sie einen bestimmten Suchmaschinen-Spider

Anstatt alle Bots von Ihrer Webseite zu blockieren, möchten Sie möglicherweise verhindern, dass ein Bot die Seite crawlt und indiziert. Um dies zu erreichen, ersetzen Sie „'robot“' innerhalb des Meta-Tags durch den Namen eines bestimmten Bots. Beispiele beinhalten: Googlebot, googlebot-news, Googlebot-Bild, Bingbot, und teoma.

576315 13
576315 13

Schritt 7. Ermutigen Sie Bots, Ihre Seite zu crawlen und zu indizieren

Wenn Sie sicherstellen möchten, dass Ihre Seite indiziert wird und den Links gefolgt wird, können Sie ein Follow-allow einfügen Meta-"Roboter" Tag in deine Kopfzeile. Verwenden Sie den folgenden Code:

Empfohlen: