Filtern
Dokumenttyp
- Dissertation (3)
- Diplomarbeit (1)
Schlagworte
- Information Retrieval (4) (entfernen)
Institut
Die Suche nach wissenschaftlicher Literatur ist eine Forschungsherausforderung für das Information Retrieval im besonderen Umfeld der digitalen Bibliotheken. Aktuelle Nutzerstudien zeigen, dass im klassischen IR-Modell zwei typische Schwächen auszumachen sind: das Ranking der gefundenen Dokumente und Probleme bei der Formulierung von Suchanfragen. Gleichzeitig ist zu sehen, dass traditionelle Retrievalsysteme, die primär textuelle Dokument- und Anfragemerkmale nutzen, bei IR-Evaluationskampagnen wie TREC und CLEF in ihrer Leistung seit Jahren stagnieren.
Zwei informetrisch-motivierte Verfahren zur Suchunterstützung werden vorgestellt und mittels einer Laborevaluation mit den beiden IR-Testkollektionen GIRT und iSearch sowie 150 und 65 Topics evaluiert. Die Verfahren sind: (1) eine auf der Kookkurrenz von Dokumentattributen basierende Anfrageerweiterung und (2) ein Rankingansatz, der informetrische Beobachtungen zur Produktivität von Informationserzeugern ausnutzt. Beide Verfahren wurden mit einer Referenzimplementation auf Basis der Suchmaschine Solr verglichen. Beide Verfahren zeigen positive Effekte beim Einsatz von zusätzlichen Dokumentattributen wie Autorennamen, ISSN-Codes und kontrollierten Schlagwörtern. Bei der Anfrageerweiterung konnte ein positiver Effekt in Form einer Verbesserung der Precision (bpref +12%) und des Recall (R +22%) erzielt werden. Die alternativen Rankingansätze konnten beim Ansatz von Autorennamen und ISSN-Codes die Baseline erreichen bzw. diese beim Einsatz der kontrollierten Schlagwörter über- treffen (MAP +14%). Einen negativen Einfluss auf das Ranking hatten allerdings die Einbeziehung von Faktoren wie Verlagsnamen oder Erscheinungsorten. Für beide Verfahren konnte eine substantiell andere Sortierung der Ergebnismenge, gemessen anhand von Kendalls, beobachtet werden. Zusätzlich zu der verbesserten Relevanz der Ergebnisliste kann der Nutzer so eine neue Sicht auf die Dokumentenmenge gewinnen.
Die Anfrageerweiterung mit Autorennamen, ISSN-Codes und Thesaurustermen zeigt das bisher ungenutzte Potential, das sich in digitalen Bibliotheken durch die Datenfülle und -qualität ergibt. Die Rankingverfahren konnten die Leistung des Baseline-Systems übertreffen, nachdem eine Überprüfung auf Vorliegen einer Power Law-Verteilung und eine anschließende Filterung durchgeführt wurde. Dies zeigt, dass die Rankingverfahren nicht universell für alle Suchanfragen anwendbar sind, sondern ein Vorhandensein bestimmter Häufigkeitsverteilungen voraussetzen. So wird die enge Verbindung der Verfahren zu informetrischen Gesetzmäßigkeiten wie Bradfords, Lotkas oder Zipfs Gesetz deutlich. Die beiden in der Arbeit evaluierten Verfahren sind als interaktive Suchunterstützungsdienste in der sozialwissenschaftlichen digitalen Bibliothek Sowiport implementiert. Die Verfahren lassen sich über entsprechende Web- Schnittstellen auch in anderen Anwendungskontexten einsetzen.
Interaktive Visualisierungen für den Linking- und Suchprozess heterogener Informationen im Web
(2013)
Die Informationsmenge im Web nimmt stetig zu und auch die Art und Vielfalt von Informationen wird immer größer. Es stehen die unterschiedlichsten Informationen wie Nachrichten, Artikel, Statistiken, Umfragedaten, Börsendaten, Veranstaltungen, Literaturnachweise usw. zur Verfügung. Die Informationen zeichnen sich durch Heterogenität in Aspekten wie Informationsart, Modalität, Strukturiertheit, Granularität, Qualität und ihre Verteiltheit aus. Die zwei Haupttechniken, mit denen Nutzer im Web nach diesen Informationen suchen, sind die Suche mit Websuchmaschinen und das Browsing über Links zwischen Informationseinheiten. Die vorherrschende Art der Informationsdarstellung ist dabei weitgehend statisch in Form von Text, Bildern und Grafiken. Interaktive Visualisierungen bieten eine Reihe von Vorteilen für die Aufbereitung und Exploration von heterogenen Informationen im Web: (1) Sie bieten verschiedene Darstellungsformen für unterschiedliche, sehr große und auch komplexe Informationsarten und (2) große Datenmengen können interaktiv anhand ihrer Eigenschaften exploriert werden und damit den Denkprozess des Nutzers unterstützen und erweitern. Bisher sind interaktive Visualisierungen aber noch kein integraler Bestandteil des Suchprozesses im Web. Die technischen Standards und Interaktionsparadigmen, um interaktive Visualisierungen als Massentechnik im Web nutzbar zu machen, werden erst langsam durch Standardisierungsgremien eingeführt. Diese Arbeit untersucht, wie interaktive Visualisierungen für den Linking- und Suchprozess heterogener Informationen im Web eingesetzt werden können. Basierend auf Grundlagen in den Bereichen Informationssuche, Informationsvisualisierung und Informationsverarbeitung wird ein Modell gebildet, das bestehende Strukturmodelle der Informationsvisualisierung um zwei neue Prozesse erweitert: (1) das Linking von Informationen in Visualisierungen und (2) das Glyphenbasierte Suchen, Browsen und Filtern. Das Vizgr-Toolkit implementiert das entwickelte Modell in einer Webanwendung. In vier verschiedenen Anwendungsszenarien werden Teilaspekte des Modells instanziiert und in Nutzertests evaluiert oder anhand von Beispielen untersucht.
Folksonomien sind Web 2.0 Plattformen, in denen Benutzer verschiedene Inhalte miteinander teilen können. Die Inhalte können mit Hilfe von Stichwörtern, den sogenannten Tags, kategorisiert und organisiert werden. Die verschiedenen Folksonomien unterstützen unterschiedliche Inhaltstypen wie zum Beispiel Webseiten (Delicious), Bilder (Flickr) oder Videos (YouTube). Aufgrund ihrer einfachen Benutzungsweise haben Folksonomien viele Millionen Benutzer. Die einfache Benutzungsweise führt aber auch zu einigen Problemen. Diese Doktorarbeit beschäftigt sich mit drei der wichtigsten Probleme und beschreibt Methoden, wie sie gelöst werden können. Das erste dieser Probleme tritt auf, wenn Benutzer die Folksonomien nach bestimmten Inhalten durchsuchen wollen. Häufig können dabei nicht alle relevanten Inhalte gefunden werden, da diesen relevante Stichwörter fehlen. Dementsprechend tritt das zweite Problem während der Vergabe von Stichwörtern auf. Manche Folksonomien, wie zum Beispiel Delicious, unterstützen ihre Benutzer dabei, indem sie ihnen mögliche Stichwörter empfehlen. Andere Folksonomien, wie zum Beispiel Flickr, bieten keine solche Unterstützung. Die Empfehlung von Stichwörtern hilft dem Benutzer dabei, Inhalte auf einfache Art und Weise mit den jeweils relevanten Stichwörtern zu versehen. Das dritte Problem besteht darin, dass weder Stichwörter noch Inhalte mit einer festen Semantik versehen sind und mehrdeutig sein können. Das Problem entsteht dadurch, dass die Benutzer die Stichwörter vollkommen frei rnverwenden können. Die automatische Identifizierung der Semantik von Stichwörtern und Inhalten hilft dabei, die dadurch entstehenden Probleme zu reduzieren. Diese Doktorarbeit stellt mehrere Methoden vor, wie verschiedene Quellen für semantische Informationen benutzt werden können, um die vorher genannten drei Probleme zu lösen. In dieser Doktorarbeit benutzen wir als Quellen Internetsuchmaschinen, soziale Netzwerke im Internet und die gemeinsamen Vorkommen von Stichwörtern in Folksonomien. Die Verwendung der verschiedenen Quellen reduziert den Aufwand bei der Erstellung von Systemen, die die vorher genannten Probleme lösen. Die vorgestellten Methoden wurden auf einem großen Datensatz evaluiert. Die erzielten Ergebnisse legen nahe, dass semantische Informationen bei der Lösung der Probleme helfen, die während der Suche von Inhalten, der Empfehlung von Stichwörtern als auch der automatischen Identifizierung der Semantik von Stichwörtern und Inhalten auftreten.
Das Hauptaugenmerk dieser Arbeit, liegt auf einer softwareergonomisch empfehlenswerten Integration eines Serach Term Recommender Moduls (STR) mithilfe von Usability-Tests und dem gezielten Blick auf den State of the Art des Interaktionsdesigns bei Retrieval-Mehrwertdiensten. Daniela Holl (Holl, 2009) hat in ihrer Diplomarbeit ein Search Term Recommender Modulprototyp unter der Verwendung der Software MindServer entwickelt und die Vorzüge eines Search Term Recommenders in Bezug auf die Behandlung der verbleibenden Vagheit zwischen Benutzer und kontrolliertem Vokabular erläutert. Nach Entwicklung eines lauffähigen Prototyps führte sie eine empirische Studie zu den gelieferten Ergebnissen bzw. der Qualität der zurückgegeben Ergebnisse durch. Somit wurde zu einem Großteil eine korrekte Funktionalität dieses Prototyps gewährleistet.rnSinn und Zweck des Search Term Recommenders ist es, dem Benutzer nur die Terme vorzuschlagen, welche nicht bereits durch Termtransformationen des Heterogenitätsservices behandelt wurden. Vorallem aber steht die Unterstützung der gezielten Suche nach bestimmten Daten zur Befriedigung des Informationsbedürfnisses im Mittelpunkt. Dabei gilt es den Benutzer sowohl in seiner Suchanfrageformulierung visuell, als auch beim Herausfiltern, der für ihn relevanten Ergebnisse in der Trefferanzeige zu unterstützen.rnDa bislang lediglich maschinelle und interne Daten zum Testabgleich verwendet wurden, liegt die Priorität dieser Arbeit auf der Untersuchung von Dialoggestaltung bzw. der Benutzerinteraktion mit dem Search Term Recommender. Schwerpunkt war eine umfassende Evaluation von Designprototypen und (Papier)-Mockups, mittels Methoden des Usability-Engineering direkt am Benutzer selbst. Dies hinsichtlich Machbarkeit und Gebrauchstauglichkeit des Search Term Recommenders.