So funktioniert Google Wie die Spinne im Netz


Zu fast jedem Suchwort liefert Google eine passende Seite über das riesige Schlagwortverzeichnis der Firma. Doch Google kennt nicht das ganze Web.

Dass Google sich im Internet so gut auskennt, liegt an Googlebot. So heißt die automatische Surfsoftware, mit der Google das Internet permanent durchforstet. Alle Suchmaschinen nutzen solche Surf-Programme, die auch Spider, Webrobots oder kurz Bots genannt werden.

Wahllos steuern sie alle Webseiten an, deren sie habhaft werden können, vom kleinsten Forumseintrag bis zum Leitartikel. Stoßen sie beim Surfen auf einen Link zu einer neuen Webseite, besuchen sie auch diese und hangeln sich so wie eine Spinne von Seite zu Seite.

Schritt für Schritt das Netz bereisen

Auf diese Weise lernt die Suchmaschine das Internet Schritt für Schritt kennen. Und das immer wieder von Neuem: Denn Internetseiten werden verändert oder verschwinden, und dies darf einer guten Suchmaschine nicht verborgen bleiben. Umgekehrt bedeutet das auch: Seiten, die Googlebot noch nie besucht hat, findet man mit Google auch nicht. Dieser unentdeckte Teil des Webs ist womöglich viel größer als der, den Google kennt.

Mit den von Googlebot angesteuerten Seiten geschieht dreierlei: Erstens speichert Google eine Kopie der Seite im hauseigenen Rechenzentrum. Zweitens gibt Google jeder katalogisierten Seite eine Nummer. Drittens analysiert Google den auf der Web-Seite enthaltenen Text, aber auch andere Informationen wie Dateinamen von Bildern, den Seitentitel und die vom Autor der Seite festgelegten Suchbegriffe. Daraus erstellt Google Schlagwörter, die in das Google-Verzeichnis, Index genannt, eingearbeitet werden.

Nummern und Wörter

Der Index ist wie das Schlagwortregister am Ende eines Buches - eine lange Liste von Wörtern und dazu die Nummern der Seiten, auf denen diese vorkommen. Auch falsch Geschriebenes oder Fremdwörter werden aufgenommen - einzig häufige Wörter wie "und" oder "das" bleiben unberücksichtigt. Startet ein Internetsurfer eine Suchabfrage, schaut Google im Index, ob der Begriff vorhanden ist. Das ergibt meistens viele tausend Treffer - die nun nach Relevanz sortiert werden müssen, denn das Wichtigste soll in der Trefferliste ganz oben stehen.

Dazu nutzt Google ein Verfahren, das "Pagerank" heißt: Jede Internetseite wird vor allem danach bewertet, wie viele andere Seiten auf sie verweisen. Wie relevant die verweisenden Seiten sind, wird ebenfalls berücksichtigt. Insgesamt über 100 Faktoren spielen eine Rolle. Doch was genau wie viel zählt bei der Seitenbewertung, bleibt Googles Geschäfts- und letztlich auch Erfolgsgeheimnis

Von Dirk Liedtke, Michael Streck und Eros Hoagland print

Mehr zum Thema


Wissenscommunity


Newsticker