Humboldt Universität zu Berlin, Institut für Bibliothekswissenschaft

Rankingverfahren bei Internet-Suchmaschinen

Zwei ausgewählte Beispiele im Vergleich

von Gerrit Gragert

Überblick

  1. Die betrachteten Suchmaschinen
  2. Das Rankingverfahren von Alta Vista
  3. Das Rankingverfahren von HotBot
  4. Testreihe zu den Rankingverfahren
  5. Anhang

Die betrachteten Suchmaschinen

Alta Vista

Das im Vergleich zu anderen Web Indexen relativ neue Alta Vista1 ist seit 1995 online und hat sich seitdem zu einer der erfolgreichsten Suchmaschinen im Internet durchgesetzt. Dies gelang der Betreiberfirma Digital Equipment nicht nur durch enormen Umfang der enthaltenen Dokumente sondern vor allem auch wegen der neuen, komfortablen und vor allem professionellen Ansprüchen genügenden Interface2.

Alta Vista enthält z.Zt. Dokumente aus 31 Millionen verschiedenen Internetadressen und ist über zwei verschiedene Interfaces (simple and adevanced search) nutzbar. Beide erlauben den Gebrauch der boolschen Logik, wenn auch mit unterschiedlicher Syntax. Schlüsselwörter sind hier AND, OR und NOT sowie NEAR, mit dem Suchbegriffe über die Nähe ihrer Positionen im Text in Beziehung gesetzt werden. Als weitere Suchhilfe existiert das einschließen von zusammenhängenden Phrasen durch Anführungszeichen und die Truncation mit '*'. Außerdem kann die Suche auf bestimmte Teile in den Dokumenten beschränkt werden wie z.B. dem Titel, Bildern oder Links3.

HotBot

Die von der bekannten Internet- und Multimedia-Zeitschrift HotWired betriebene Suchmaschinen HotBot4 bezeichnet sich selbst als den umfangsreichsten Index des WorldWideWebs. Und obwohl sie dies mit 54 Millionen Einträgen wahrscheinlich auch ist, konnte sie Alta Vista nicht von der Spitzenpositionen verdrängen. Dies mag vor allem daran liegen, daß das Interface von HotBot nicht den intuitiven Gebrauch der boolschen Logik mit seinen Operatoren erlaubt. Diese werden durch ein Pull-Down-Menu ersetzt, mit dem man seine Suche so steuern kann, daß alle eingegebenen Begriffe in einem Dokument vorhanden sein müssen (all the words, äquivalent zu AND) oder nur ein Begriff im Dokument auftauchen muß (one word, äquivalent zu OR). Eine Kombination zwischen AND und OR ist somit nicht möglich. Dafür läßt sich die Suche auf bestimmte Terme, einen bestimmten Zeitraum, einen bestimmten Medientyp (Bild, Video etc.) oder örtlich beschränken.

Zurück zum Überblick


Das Rankingverfahren von Alta Vista

Allgemeines zum Rankingverfahren

Bei der einfachen Suche in Alta Vista erscheinen die Ergebnisse, bei denen es sich nicht selten um einige tausend handeln kann, in einer geordneten Reihenfolge. Durch diese Ordnung soll erreicht werden, daß die am wahrscheinlich relevantesten Dokumente als erste in der Ergebnissliste erscheinen. Da jede Suchanfrage ein anderes Ziel verfolgt, ist es gerade bei der enormen Menge von Dokumenten wichtig, möglichst allgemeine und objektive Kriterien zur Ordnung - dem Ranking - zu finden.

Alta Vista bedient sich vor allem drei Rankingkriterien:

Kontrolle des Rankings über die Advanced Search

Diese Kriterien werden bei der einfachen Suche (Simple Search) automatisch über alle eingegebenen Suchbegriffe angewendet. Will man das Ranking selbst steuern, so hilft nur das Wechseln zur Advanced Search. Hier sind Suchbegriffe und Rankingkriterien voneinander getrennt und müssen somit nicht zwangsweise identisch sein. Zum einen kann man das Feld Ranking Criteria freilassen, dann werden die Suchergebnisse nicht gerankt und erscheinen in der Reihenfolge, wie sie in der Alta Vista Datenbank abgelegt sind. Vielleicht wird aber auch nach mehreren Begriffen gesucht, wobei nur einer oder zwei inhaltlich wirklich wichtig sind und der Rest nur zum Einengen der Ergebnissmenge genutzt werden; dann können diese als Rankingkriterien angegeben werden. Oder es soll nach Begriffen gerankt werden, die überhaupt nicht in der Suchanfrage enthalten sind. Alles dies läßt sich über das Ranking Criteria-Feld steuern.

Einfluß auf das Ranking beim Erstellen einer Seite

Wie bereits erwähnt7 führt das Auffinden von Suchbegriffen am Dokumentanfang zu einem höheren Ranking als am Dokumentende. Dies trifft auch auf die "nicht sichtbaren" Teile eines Dokuments zu, in diesem Falle das <META>-Tag, das zwar in dem HTML-Dokument vorhanden ist, aber von den Browsern (z.B. Netscape, Internet Explorer etc.) i.d.R. nicht angezeigt wird. Erst ein Blick auf den Quelltext fördert sie zu tage.

Alta Vista unterstützt zur Indexierung einer Seite und somit auch zum Ranking vor allem die <META>-Tags description und keywords. Mit description kann eine kurze Beschreibung des Inhalts des Dokuments angegeben werden8, mit keywords kann das Dokument seitens des Autors durch einige Stichwörter indexiert werden. Beide Felder werden in der Suche miteinbezogen, und das Auffinden eines Suchterms in diesem Dokumentbereich führt zu einer hohen Gewichtung beim Ranking. Dabei gilt die Gewichtungsreihenfolge Auffinden im Titel - Auffinden in description oder keywords - Auffinden im Text.

Zurück zum Überblick


Das Rankingverfahren von HotBot

Das Ranking wird in der Online-Dokumentation besser erlätert als z.B. bei Alta Vista, so daß sich fundiertere Angaben machen lassen. In vielen Punkten sind die Rankingkriterien identisch mit denen von Alta Vista, darum ist es umso interessanter, im praktischen Test einen direkten Vergleich der beiden Suchmaschinen zu ziehen. Die Rankingkriterien von HotBot sind im einzelnen:

Zurück zum Überblick

Testreihe zu den Rankingverfahren

Zum praktischen Testen der Rankingverfahren sollten Suchbegriffe gewählt werden, die nicht schon garantiert mehrere tausend Treffer zurückliefern (wie z.B. internet, computer oder bookmark). Günstig ist vielmehr ein tagespolitischer Suchterm wie - so mein Vorschlag - die am 1.Juli stattfindende Übergabe von Hong Kong. Gesucht werden soll also nach "hong kong" und handover.

Liegt die Ergebnisliste vor, sollte ein Blick auf die ersten paar Dokumente geworfen werden (incl. HTML-Quelltext), um zu ergründen, warum das Dokument so hoch gerankt wurde.

Alta Vista

Folgende Tests werden vorgeschlagen:

  1. Eine normale Simple Search mit den beiden Suchtermen. Hong Kong sollte in Anführungszeichen gesetzt werden.

  2. Vertauschen der Suchbegriffe in der Simple Search. Hat dies einen Einfluß auf das Ranking?

  3. Eine Advanced Search ohne die Angabe von speziellen Rankingkriterien.

  4. Eine Advanced Search ohne Suchbegriffe, diese dafür nur in das Feld für das Rankingkriterium eintragen.

  5. Eine Advanced Search mit jeweils einem und dann mit beiden Begriffen als Rankingkriterium. Welche Auswirkung hat dies auf das Ranking? Welche Veränderungen gibt es gegenüber dem Simple Search Ranking?

Hot Bot

Hier wird folgendes vorgeschlagen:

  1. Normale Suche mit beiden Suchtermen.

  2. Vertauschen der Suchterme und erneute Suche. Werden die Dokumente nun anders gerankt?

  3. Werden gleiche Dokumente bei Alta Vista und bei HotBot auch ungefähr gleich gerankt?11 Wenn nicht, woran mag dies trotz der Ähnlichkeit der Rankingkriterien liegen?

Zurück zum Überblick

Anhang

Quellen

Tyner, Ross
Sink or Swim: Internet Search Tools & Techniques
http://www.sci.ouc.bc.ca/libr/connect96/search.htm

Notess, Greg R.
On The Nets : Searching the Web with Alta Vista
in: DATABASE, June 96
http://www.onlineinc.com/database/JuneDB/nets6.html

Zorn, Peggy; Emanoil, Mary; Marshall, Lucy; Panek, Mary
Advanced Searching: Tricks of the Trade
in: ONLINE, May 1996
http://www.onlineinc.com/onlinemag/MayOL/zorn5.html

HotBot FAQ: Results, Scoring, and Ranking
http://www.hotbot.com/FAQ/index.html?SEC=score

AltaVista Search: Help for Advanced Query
http://www.altavista.digital.com/cgi-bin/query?pg=ah

Wer weitere Informationen über Internet-Suchmaschinen sucht, sollte hier einmal nachsehen:
Web Search Engines: A Webliography/Bibliography
http://www.state.wi.us/0/agencies/dpi/www/srch_bib.html


Fußnoten

1 s. http://www.altavista.digital.com

2 Hier meine ich vor allem die Möglichkeiten der Advanced Search, auf die später noch genauer eingegangen wird.

3 Dies geschieht durch das Voranstellen der entsprechenden Kategorie vor den Suchbegriff. Sollen z.B. Dokumente, die den Begriff Rankingverfahren im HTML-Titel führen, gefunden werden, so würde die Suchanfrage lauten: title:rankingverfahren. (Mit Titel ist der Text gemeint, der zwischen den <TITLE>-Tag im Kopf des HTML-Dokuments steht. Netscape zeigt diesen in der Titelleiste seines Fensters an).

4 s. http://www.hotbot.com

5 vgl. Ausführungen zu Einfluß auf das Ranking beim Erstellen einer Seite

6 vgl. Ausführungen zu Kontrolle des Rankings über die Advanced Search

7 vgl. Ausführungen zu Allgemeines zum Rankingverfahren

8 Dieses wird auch bei der Ausgabe der Ergebnisse herangezogen. Im Normalfall zeigt Alta Vista in der Ergebnissliste neben dem Titel die ersten zwei Zeilen eines Dokumentes an. Enthält ein Dokument jedoch die erwähnte description, so wird diese anstatt der zwei Zeilen ausgegeben. (Ein Beispiel zur Verwendung der <META>-Tags kann auch der HTML-Quelltext dieses Dokument dienen.)

9 vgl. Ausführungen zu Einfluß auf das Ranking beim Erstellen einer Seite

10 wörtlich übersetzt schwindeln, betrügen.

11 Ein exakt gleiches Ranking ist aufgrund des Größenunterschiedes der Datenbanken (vgl. Die betrachteten Suchmaschinen) unwahrscheinlich.

Zurück zum Überblick


Autor: Gerrit Gragert
Erstellt am: 24.06.1997
Zuletzt geändert: 07.06.1999
E-Mail: gerrit@gragert.de