Filtern
Das Web 2.0 stellt online Technologien zur Verfügung, die es Nutzern erlaubt gemeinsam Inhalte zu erstellen, zu publizieren und zu teilen. Dienste wie Twitter, CNet, CiteSeerX etc. sind Beispiele für Web 2.0 Plattformen, die zum einen Benutzern bei den oben beschriebenen Aktivitäten unterstützen und zum anderen als Quellen reichhaltiger Information angesehen werden können. Diese Plattformen ermöglichen es Nutzern an Diskussionen teilzunehmen, Inhalte anderer Nutzer zu kommentieren, generell Feedback zu geben (z.B. zu einem Produkt) und Inhalte zu publizieren, sei es im Rahmen eines Blogs oder eines wissenschaftlichen Artikels. Alle diese Aktivitäten führen zu einer großen Menge an unstrukturierten Daten. In diesem Überfluss an Informationen kann auf den persönlichen Informationsbedarf einzelner Benutzer nicht mehr individuell genug eingegangen werden kann. Methoden zur automatischen Analyse und Aggregation unstrukturierter Daten die von einzelnen Plattformen zur Verfügung gestellt werden, können dabei helfen den sich aus dem unterschiedlichen Kontext der Plattformen ergebenden Informationsbedarf zu beantworten. In dieser Arbeit stellen wir drei Methoden vor, die helfen den Informationsüberfluss zu verringern und es somit ermöglichen den Informationsbedarf einzelner Nutzer besser zu beantworten.
Der erste Beitrag dieser Arbeit betrachtet die zwei Hauptprobleme des Dienstes Twitter: die Kürze und die Qualität der Einträge und wie sich diese auf die Ergebnisse von Suchverfahren auswirken. Wir analysieren und identifizieren Merkmale für einzelne Kurznachrichten auch Twitter (sog. Tweets), die es ermöglichen die Qualität eines Tweets zu bestimmen. Basierend auf dieser Analyse führen wir den Begriff "Interestingness" ein, der als statisches Qualitätsmaß für Tweets dient. In einer empirischen Analyse zeigen wir, dass die vorgeschlagenen Maße dabei helfen qualitativ hochwertigere Information in Twitter zu finden und zu filtern. Der zweite Beitrag beschäftigt sich mit dem Problem der Inhaltsdiversifikation in einem kollaborativen sozialen System, z.B. einer online Diskussion die aus der sozialen Kollaboration der Nutzer einer Plattform entstanden ist. Ein Leser einer solchen Diskussion möchte sich einen schnellen und umfassenden Überblick über die Pro und Contra Argumente in der Diskussion verschaffen. Zu diesem Zweck wurde FREuD entwickelt, ein Ansatz der hilft das Diversifikationsproblem von Inhalten in den Griff zu bekommen. FREuD kombiniert Latent Semantic Analysis mit Sentiment Analyse. Die Evaluation von FREuD hat gezeigt, dass es mit diesem Ansatz möglich ist, einen umfassenden Überblick über die Unterthemen und die Aspekte einer Diskussion, sowie über die Meinungen der Diskussionteilnehmer zu liefern. Der dritte Beitrag dieser Arbeit ist eine neues Autoren-Thema-Zeit Modell, dass es ermöglicht Trendthemen und Benutzerinteressen in sozialen Medien zu erfassen. Der Ansatz löst dieses Problem indem er die Relationen zwischen Autoren, latenter Themen und zeitlicher Information mittels Bayes'schen Netzen modelliert. Unsere Evaluation zeigt einen verbesserte Erkennung von semantisch zusammenhaängenden Themen und liefert im weiteren Informationen darüber in wie weit die Veränderung im Interesse einzelner Autoren mit der Entwicklung einzelner Themengebiete zusammenhängt.