Mining Social Media: Methods and Approaches for Content Analysis

Data Mining von sozialen Medien: Methoden und Ansätze zur inhaltlichen Analyse

  • Web 2.0 provides technologies for online collaboration of users as well as the creation, publication and sharing of user-generated contents in an interactive way. Twitter, CNET, CiteSeerX, etc. are examples of Web 2.0 platforms which facilitate users in these activities and are viewed as rich sources of information. In the platforms mentioned as examples, users can participate in discussions, comment others, provide feedback on various issues, publish articles and write blogs, thereby producing a high volume of unstructured data which at the same time leads to an information overload. To satisfy various types of human information needs arising from the purpose and nature of the platforms requires methods for appropriate aggregation and automatic analysis of this unstructured data. In this thesis, we propose methods which attempt to overcome the problem of information overload and help in satisfying user information needs in three scenarios. To this end, first we look at two of the main challenges of sparsity and content quality in Twitter and how these challenges can influence standard retrieval models. We analyze and identify Twitter content features that reflect high quality information. Based on this analysis we introduce the concept of "interestingness" as a static quality measure. We empirically show that our proposed measure helps in retrieving and filtering high quality information in Twitter. Our second contribution relates to the content diversification problem in a collaborative social environment, where the motive of the end user is to gain a comprehensive overview of the pros and cons of a discussion track which results from social collaboration of the people. For this purpose, we develop the FREuD approach which aims at solving the content diversification problem by combining latent semantic analysis with sentiment estimation approaches. Our evaluation results show that the FREuD approach provides a representative overview of sub-topics and aspects of discussions, characteristic user sentiments under different aspects, and reasons expressed by different opponents. Our third contribution presents a novel probabilistic Author-Topic-Time model, which aims at mining topical trends and user interests from social media. Our approach solves this problem by means of Bayesian modeling of relations between authors, latent topics and temporal information. We present results of application of the model to the scientific publication datasets from CiteSeerX showing improved semantically cohesive topic detection and capturing shifts in authors" interest in relation to topic evolution.
  • Das Web 2.0 stellt online Technologien zur Verfügung, die es Nutzern erlaubt gemeinsam Inhalte zu erstellen, zu publizieren und zu teilen. Dienste wie Twitter, CNet, CiteSeerX etc. sind Beispiele für Web 2.0 Plattformen, die zum einen Benutzern bei den oben beschriebenen Aktivitäten unterstützen und zum anderen als Quellen reichhaltiger Information angesehen werden können. Diese Plattformen ermöglichen es Nutzern an Diskussionen teilzunehmen, Inhalte anderer Nutzer zu kommentieren, generell Feedback zu geben (z.B. zu einem Produkt) und Inhalte zu publizieren, sei es im Rahmen eines Blogs oder eines wissenschaftlichen Artikels. Alle diese Aktivitäten führen zu einer großen Menge an unstrukturierten Daten. In diesem Überfluss an Informationen kann auf den persönlichen Informationsbedarf einzelner Benutzer nicht mehr individuell genug eingegangen werden kann. Methoden zur automatischen Analyse und Aggregation unstrukturierter Daten die von einzelnen Plattformen zur Verfügung gestellt werden, können dabei helfen den sich aus dem unterschiedlichen Kontext der Plattformen ergebenden Informationsbedarf zu beantworten. In dieser Arbeit stellen wir drei Methoden vor, die helfen den Informationsüberfluss zu verringern und es somit ermöglichen den Informationsbedarf einzelner Nutzer besser zu beantworten. Der erste Beitrag dieser Arbeit betrachtet die zwei Hauptprobleme des Dienstes Twitter: die Kürze und die Qualität der Einträge und wie sich diese auf die Ergebnisse von Suchverfahren auswirken. Wir analysieren und identifizieren Merkmale für einzelne Kurznachrichten auch Twitter (sog. Tweets), die es ermöglichen die Qualität eines Tweets zu bestimmen. Basierend auf dieser Analyse führen wir den Begriff "Interestingness" ein, der als statisches Qualitätsmaß für Tweets dient. In einer empirischen Analyse zeigen wir, dass die vorgeschlagenen Maße dabei helfen qualitativ hochwertigere Information in Twitter zu finden und zu filtern. Der zweite Beitrag beschäftigt sich mit dem Problem der Inhaltsdiversifikation in einem kollaborativen sozialen System, z.B. einer online Diskussion die aus der sozialen Kollaboration der Nutzer einer Plattform entstanden ist. Ein Leser einer solchen Diskussion möchte sich einen schnellen und umfassenden Überblick über die Pro und Contra Argumente in der Diskussion verschaffen. Zu diesem Zweck wurde FREuD entwickelt, ein Ansatz der hilft das Diversifikationsproblem von Inhalten in den Griff zu bekommen. FREuD kombiniert Latent Semantic Analysis mit Sentiment Analyse. Die Evaluation von FREuD hat gezeigt, dass es mit diesem Ansatz möglich ist, einen umfassenden Überblick über die Unterthemen und die Aspekte einer Diskussion, sowie über die Meinungen der Diskussionteilnehmer zu liefern. Der dritte Beitrag dieser Arbeit ist eine neues Autoren-Thema-Zeit Modell, dass es ermöglicht Trendthemen und Benutzerinteressen in sozialen Medien zu erfassen. Der Ansatz löst dieses Problem indem er die Relationen zwischen Autoren, latenter Themen und zeitlicher Information mittels Bayes'schen Netzen modelliert. Unsere Evaluation zeigt einen verbesserte Erkennung von semantisch zusammenhaängenden Themen und liefert im weiteren Informationen darüber in wie weit die Veränderung im Interesse einzelner Autoren mit der Entwicklung einzelner Themengebiete zusammenhängt.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Nasir Naveed
URN:urn:nbn:de:hbz:kob7-9887
Advisor:Steffen Staab
Document Type:Doctoral Thesis
Language:English
Date of completion:2014/06/04
Date of publication:2014/06/04
Publishing institution:Universität Koblenz-Landau, Campus Koblenz, Universitätsbibliothek
Granting institution:Universität Koblenz-Landau, Campus Koblenz, Fachbereich 4
Date of final exam:2013/07/03
Release Date:2014/06/04
Number of pages:XXII, 156 Seiten
Institutes:Fachbereich 4 / Institut für Informatik
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
Licence (German):License LogoEs gilt das deutsche Urheberrecht: § 53 UrhG