kostenlose Beratung: +41 44 516 50 55 info@sichtbar.ag Zürich
14

Autor: René Petry ist Geschäftsführer der Agentur

Der Informatiker ist Dozent bei der SAWI und Digicomp sowie Prüfungsexperte für die Eidgenössische Prüfung im Bereich Marketing.

Termin vereinbaren

Crawling

Moderne Suchmaschinen können den Internetnutzern relevante Suchergebnisse in Sekundenschnelle liefern. Um dieses leisten zu können, haben Google und andere bekannte Suchmaschinen die Technik des effizienten Crawling ständig weiterentwickelt. 

Was ist das Suchmaschinen Crawling?

Für das Crawling nutzen Suchmaschinen spezielle Computerprogramme, die im Wesentlichen drei Funktionen haben:

  1. Crawling
  2. Indexierung
  3. Ranking

Die Crawling Definition:

Crawling ist der Prozess, in dem Suchmaschinen Crawler, oder auch Webcrawler, Spider oder Bots genannt, das Internet auf neuen oder aktualisierten Content durchsucht. 

Bei einem Crawler oder Bot handelt es sich um ein Computerprogramm, das externen und internen Links auf Webseiten, zu weiteren URLs folgt und den gefundenen Content analysiert. Beim Content handelt es sich dabei sowohl um ganze Webseiten, aber auch um Textbeiträge, Fotos und Grafiken, Videos, PDFs und mehr. Die bekanntesten und wichtigsten Webcrawler sind diejenigen von Google, dem Suchmaschinenanbieter mit dem grössten Marktanteil. Diese Crawler sind auch unter dem Begriff Googlebot bekannt.

Der gefundene Content wird indexiert und in einer gewaltigen Datenbank gespeichert. Durch die Google Indexierung ist er dann für Internetnutzer über die Suchmaschine von Google auffindbar.

Die ausgeklügelten Algorithmen können inzwischen sehr gut die Relevanz und Qualität des Contents einschätzen. Auf dieser Basis bestimmen sie das Rankingalso in welcher Reihenfolge die Suchergebnisse angezeigt werden. Diese Algorithmen werden bis zu achtmal täglich angepasst.

Können die Suchmaschinen Crawler Ihre Seiten finden?

Um festzustellen, ob Ihre Webseite von Google indexiert ist, können Sie einen ganz einfachen Test machen. Tippen Sie in das Suchfeld bei Google “site:IhreWebseite.com”. Google zeigt Ihnen dann die indexierten Seiten an. Alternativ dazu können Sie auch den Report “Index Coverage” der Google Search Console einsehen.

Crawling Website
Die Indexierung der Website-Seite ergibt ein Ergebnis. Das ist auch die Anzahl der indexierten Ergebnisse bei einem OnPage.

Als Ergebnis erhalten Sie alle von dieser Website im Google befindliche Sub-Seiten angezeigt. Diese Ergebnisse können von Ihnen wie folgt genutzt werden:

  • Prüfen Sie für jede Ergebnisseite im Index, ob diese bei google im Index aufgeführt werden soll (house cleaning).
  • Prüfen Sie für jede Ergebnisseite im Index, die Page Title und die Meta Description (blauer und schwarzer Text).
  • Sind alle Ihre Website’s im Index enthalten?
  • Schliessen Sie alle Websites aus, welche nicht im Index vorhanden sein sollten (Testseiten, interne Websites, Login-Seiten, etc.)

search console coverage report
Im Index Coverage Report sollten keine Fehler vorhanden sein. Dieses gilt es kontinuierlich zu prüfen.

Damit Ihre Seiten in den Suchergebnissen auffindbar sind, müssen Sie natürlich sicherstellen, dass die Webcrawler ungehinderten Zugang haben. Falls Sie Zweifel haben, ob alle wichtigen Seiten indexiert sind, sollten Sie zuerst die Datei robots.txt überprüfen. Denn durch diese wird der Zugang für Suchmaschinen, zu Ihrer Webseite kontrolliert. Mögliche Szenarien, welche wir schon in der Praxis erlebt haben:

  • Mit dem GoLive der Website, wurde die robots.txt vom Stage-System übernommen und somit die Suchtmaschinen Bots ausgesperrt.
  • Administratoren haben entschieden, dass Google die Seite nicht indexieren darf.

Sollten Sie andererseits die Indexierung bestimmter Unterseiten nicht wünschen, können Sie dies durch die Platzierung bestimmter Tags im Backend Ihrer Webseite verhindern.

Unerwünschtes Webcrawling

Der Vollständigkeit halber erwähnen wir hier auch das Webcrawling mit mehr oder weniger lauteren Absichten. Dieses geht natürlich nicht von den respektablen Suchmaschinen aus. Manche Crawler durchsuchen bestimmten Kriterien entsprechende Webseiten z.B. nach E-Mail-Adressen, die dann für Spam-Werbemails genutzt werden. Diese zweifelhaften Crawler halten sich zudem nicht an die Zugangsbeschränkungen, die in der robots.txt Datei abgelegt sind. Sichtbar Online Marketing AG hilft Ihnen mit technischem Know-How, sich gegen derartige Angriffe zu schützen.

Was tun, wenn meine Seite gar nicht in den Suchergebnissen auftaucht?

Sollte Ihre Seite nicht in den Suchergebnissen auftauchen kann dies daran liegen, dass

  • Ihre Seite noch ganz neu ist und die Crawler sie noch nicht gefunden haben,
  • es bisher noch keine Links von externen Webseiten zu der Ihren gibt,
  • die Struktur Ihrer Webseite die Navigation für die Webcrawler erschwert,
  • der Zugang für Crawler durch eine entsprechende Kodierung blockiert ist, etwa im robots.txt,
  • Google Ihre Seite mit einer Sanktion belegt hat, etwa wegen verdächtigen Traffics oder Spam.

Gerne unterstützen wir Sie, damit Ihre Website auch im google Index sichtbar wird!

Werden Sie sichtbar

SEO ist das Qualitätsmanagement Ihrer Website.




    Auch Webcrawler haben ein Budget

    Google sieht für seine Bots eine gewisse Anzahl von URLs pro Webseite vor, die bei einem Durchlauf analysiert werden. Dies ist das Crawl-Budget.

    Insbesondere bei grossen Webseiten mit vielen Unterseiten ist es daher wichtig, den Webcrawlern den Weg durch Ihre Webseite zu erleichtern. Eine gut optimierte Struktur und Benutzerführung hilft ihnen bei der Navigation. Das Blockieren von unwichtigen Seiten ist ebenfalls sinnvoll, damit die Webcrawler ihr Budget für die wirklich wichtigen Seiten nutzen. Allerdings ist für die korrekte Kodierung dieser Blockaden technisches Verständnis erforderlich, um nicht aus Versehen die Googlebots von essentiellenTeilen der Webseite auszuschliessen.

    Sichtbar Online Marketing AG implementiert für Sie diese sehr technischen Massnahmen für mehr Sicherheit und Sichtbarkeit Ihrer Webseite.