Filtern
Schlagworte
- Latent Negative (1)
- Link Prediction (1)
- Maschinelles Lernen (1)
- Unlink Prediction (1)
Institut
- Institute for Web Science and Technologies (2) (entfernen)
Viele Menschen kommunizieren und interagieren zunehmend über soziale Online-Netzwerke wie Twitter oder Facebook, oder tauschen Meinungen mit Freunden oder auch Fremden aus. Durch die zunehmende Verfügbarkeit des Internets wird auch Wissen für immer mehr Menschen offen verfügbar gemacht. Beispiele hierfür sind die Online-Enzyklopädie Wikipedia oder auch die vielfältigen Informationen in diversen Webforen und Webseiten. Diese zwei Netzwerkkategorien - Soziale Netzwerke und Wissensnetzwerke - verändern sich sehr schnell. Fast sekündlich befreunden sich neue Nutzer in sozialen Netzwerken und Wikipedia-Artikel werden überarbeitet und neu mit anderen Artikeln verlinkt. Diese Änderungen an der Verlinkung von Menschen oder Wissensbausteinen folgen bestimmten strukturellen Regeln und Charakteristiken, die weit weniger zufällig sind als man zunächst annehmen würde.
Das Ziel dieser Doktorarbeit ist es, drei charakteristische Verlinkungsmuster in diesen zwei Netzwerkkategorien vorherzusagen: das Hinzufügen von neuen Verlinkungen, das Entfernen bestehender Verbindungen und das Vorhandensein von latent negativen Verlinkungen. Zunächst widmen wir uns dem relativ neuen Problem der Vorhersage von Entlinkungen in einem Netzwerk. Hierzu gibt es zahlreiche soziologische Vorarbeiten, die nahelegen, dass die Ursachen zur Entstehung von Beziehungsabbrüchen komplementär zu den Gründen für neue Beziehungen sind. Obwohl diese Arbeiten eine strukturelle Ähnlichkeit der Probleme vermuten lassen, zeigen wir, dass beide Probleme nicht komplementär zueinander sind. Insbesondere zeigen wir, dass das dynamische Zusammenspiel von neuen Verlinkungen und Entlinkungen in Netzwerken durch die vier Zustände des Wachstums, des Zerfalls, der Stabilität und der Instabilität charakterisiert ist. Für Wissensnetzwerke zeigen wir, dass die Vorhersagbarkeit von Entlinkungen deutlich verbessert wird, wenn zeitliche Informationen wie der Zeitpunkt von einzelnen Netzwerkergeignissen mit genutzt werden. Wir präsentieren und evaluieren hierfür insgesamt vier verschiedene Strategien, die von zeitlichen Informationen Gebrauch machen. Für soziale Netzwerke analysieren wir, welche strukturellen Einflussfaktoren zur Entstehung und Löschung von Links zwischen Benutzern in Twitter indikativ sind. Auch hier zeigt sich, dass zeitliche Informationen darüber, dass eine Kante schon einmal gelöscht wurde, die Vorhersagbarkeit von Verlinkungen und insbesondere Entlinkungen enorm verbessert. Im letzten Teil der Doktorarbeit zeigen wir, wie negative Beziehungen (beispielsweise Misstrauen oder Feindschaft) aus positiven Beziehungen zwischen Nutzern (etwa Vertrauen und Freundschaft) abgeleitet werden können. Dies ist besonders relevant für Netzwerke, in denen nur positive Beziehungen kenntlich gemacht werden können. Für dieses Szenario zeigen wir, wie latent negative Beziehungen zwischen Nutzern dennoch erkannt werden können.
This thesis presents novel approaches for integrating context information into probabilistic models. Data from social media is typically associated with metadata, which includes context information such as timestamps, geographical coordinates or links to user profiles. Previous studies showed the benefits of using such context information in probabilistic models, e.g.\ improved predictive performance. In practice, probabilistic models which account for context information still play a minor role in data analysis. There are multiple reasons for this. Existing probabilistic models often are complex, the implementation is difficult, implementations are not publicly available, or the parameter estimation is computationally too expensive for large datasets. Additionally, existing models are typically created for a specific type of content and context and lack the flexibility to be applied to other data.
This thesis addresses these problems by introducing a general approach for modelling multiple, arbitrary context variables in probabilistic models and by providing efficient inference schemes and implementations.
In the first half of this thesis, the importance of context and the potential of context information for probabilistic modelling is shown theoretically and in practical examples. In the second half, the example of topic models is employed for introducing a novel approach to context modelling based on document clusters and adjacency relations in the context space. They can cope with areas of sparse observations and These models allow for the first time the efficient, explicit modelling of arbitrary context variables including cyclic and spherical context (such as temporal cycles or geographical coordinates). Using the novel three-level hierarchical multi-Dirichlet process presented in this thesis, the adjacency of ontext clusters can be exploited and multiple contexts can be modelled and weighted at the same time. Efficient inference schemes are derived which yield interpretable model parameters that allow analyse the relation between observations and context.