Information Retrieval

Information Retrieval (engl. für Informations-Rückgewinnung) bezeichnet einen speziellen Fachbereich der Informatik, der sich damit befasst, Informationen in der riesigen Informationssammlung des World Wide Web (WWW) wieder zu finden.

 

Die Aufgabe der Datenrückgewinnung gehört somit, neben dem Speichern und Aufbereiten von Daten, zu den Hauptaufgaben einer Suchmaschine. Gibt ein Nutzer ein bestimmtes Schlüsselwort (Keyword) ein, so vergleicht die Suchmaschine den gesuchten Begriff mit dem vorhandenen Angebot an Daten und gibt schließlich eine Liste mit Ergebnissen aus.

Vorgehensweise der Suchmaschine

So genannte Spider oder Crawler durchsuchen zunächst das Netz und speichern alle gefundenen Websites ab, um sie zu einem späteren Zeitpunkt zu bearbeiten.

 

Wäre es Aufgabe der Suchmaschine, im Falle einer Anfrage nochmals alle Websites komplett durchzugehen, würde die Suche viel zu lange dauern, daher müssen die Informationen auf eine bestimmte Weise kategorisiert werden.

 

Die gefundenen Informationen werden von weiteren Modulen der Suchmaschine bearbeitet, strukturiert und nach Keywords alphabetisch in einem Index angelegt.

Suchmaschinen-Spider fragen einen Index ab

Die bekanntesten algorithmischen Suchmaschinen wie Google, Yahoo oder MSN finden die Suchergebnisse nicht, indem sie das gesamte Web absuchen, sondern mithilfe eines robotergenerierten Index, bei dem es sich genau genommen um ein Informations-Rückgewinnungssystem (IR- oder Information Retrieval System) handelt.

Information Retrieval-Modelle

Information Retrieval-Systeme arbeiten mit verschiedenen Modellen zur Wiederauffindung von Daten. Dazu gehören mengentheoretische, Vektorraum-basierte und probabilistische Modelle.

 

Vektorraum-basierte Modelle besitzen eine hohe Retrievalqualität und werden von den meisten Suchmaschinen zur Suche eingesetzt.