Filtern
Schlagworte
- Latent Negative (1)
- Link Prediction (1)
- Maschinelles Lernen (1)
- Unlink Prediction (1)
Institut
Soziale Netzwerke sind allgegenwärtige Strukturen, die wir jeden Tag generieren und bereichern, während wir uns über Plattformen der sozialen Medien, E-Mails und jede andere Art von Interaktion mit Menschen verbinden. Während diese Strukturen für uns nicht greifbar sind, sind sie sehr wichtige Informationsträger. Zum Beispiel kann die politische Neigung unserer Freunde ein Näherungswert sein, um unsere eigenen politischen Präferenzen zu identifizieren. Gleichermaßen
kann die Kreditwürdigkeit unserer Freunde entscheidend bei der Gewährung oder Ablehnung unserer eigenen Kredite sein. Diese Erklärungskraft wird bei der Gesetzgebung, bei Unternehmensentscheidungen und in der Forschung genutzt, da sie maschinellen Lerntechniken hilft, genaue Vorhersagen zu treffen. Diese Verallgemeinerungen kommen jedoch häufig nur der Mehrheit der Menschen zugute, welche die allgemeine Struktur des Netzwerks prägen, und benachteiligen unterrepräsentierte Gruppen, indem sie ihre Mittel und Möglichkeiten begrenzen. Daher ist es wichtig zuerst zu verstehen, wie sich soziale Netzwerke bilden, um dann zu überprüfen, inwieweit ihre Mechanismen der Kantenbildung dazu beitragen, soziale Ungleichheiten in Algorithmen des maschinellen Lernens zu verstärken.
Zu diesem Zweck schlage ich im ersten Teil dieser Arbeit HopRank und Janus vor, zwei Methoden um die Mechanismen der Kantenbildung in realen ungerichteten sozialen Netzwerken zu charakterisieren. HopRank ist ein Modell der Daten-Hamsterei in Netzwerken. Sein Schlüsselkonzept ist ein gezinkter zufälliger Wanderer, der auf Übergangswahrscheinlichkeiten zwischen K-Hop-Nachbarschaften basiert. Janus ist ein Bayessches Rahmenwerk, mit dem wir plausible Hypothesen der Kantenbildung in Fällen identifizieren und bewerten können, in denen Knoten zusätzliche Daten enthalten. Im zweiten Teil dieser Arbeit untersuche ich die Auswirkungen dieser Mechanismen - welche die Kantenbildung in sozialen Netzwerken erklären - auf das maschinelle Lernen. Insbesondere untersuche ich den Einfluss von Homophilie, bevorzugter Bindung, Kantendichte, Anteil von Minderheiten und der Richtung von Verbindungen sowohl auf Leistung als auch auf systematische Fehler von kollektiver Klassifizierung und auf die Sichtbarkeit von Minderheiten in Top-K-Rängen. Meine Ergebnisse zeigen eine starke Korrelation zwischen der Netzwerkstruktur und den Ergebnissen des maschinellen Lernens. Dies legt nahe, dass die systematische Diskriminierung spezieller Personen: (i) durch den Netzwerktyp vorweggenommen und (ii) durch strategisches Verbinden im Netzwerk verhindert werden kann.
This thesis presents novel approaches for integrating context information into probabilistic models. Data from social media is typically associated with metadata, which includes context information such as timestamps, geographical coordinates or links to user profiles. Previous studies showed the benefits of using such context information in probabilistic models, e.g.\ improved predictive performance. In practice, probabilistic models which account for context information still play a minor role in data analysis. There are multiple reasons for this. Existing probabilistic models often are complex, the implementation is difficult, implementations are not publicly available, or the parameter estimation is computationally too expensive for large datasets. Additionally, existing models are typically created for a specific type of content and context and lack the flexibility to be applied to other data.
This thesis addresses these problems by introducing a general approach for modelling multiple, arbitrary context variables in probabilistic models and by providing efficient inference schemes and implementations.
In the first half of this thesis, the importance of context and the potential of context information for probabilistic modelling is shown theoretically and in practical examples. In the second half, the example of topic models is employed for introducing a novel approach to context modelling based on document clusters and adjacency relations in the context space. They can cope with areas of sparse observations and These models allow for the first time the efficient, explicit modelling of arbitrary context variables including cyclic and spherical context (such as temporal cycles or geographical coordinates). Using the novel three-level hierarchical multi-Dirichlet process presented in this thesis, the adjacency of ontext clusters can be exploited and multiple contexts can be modelled and weighted at the same time. Efficient inference schemes are derived which yield interpretable model parameters that allow analyse the relation between observations and context.
Viele Menschen kommunizieren und interagieren zunehmend über soziale Online-Netzwerke wie Twitter oder Facebook, oder tauschen Meinungen mit Freunden oder auch Fremden aus. Durch die zunehmende Verfügbarkeit des Internets wird auch Wissen für immer mehr Menschen offen verfügbar gemacht. Beispiele hierfür sind die Online-Enzyklopädie Wikipedia oder auch die vielfältigen Informationen in diversen Webforen und Webseiten. Diese zwei Netzwerkkategorien - Soziale Netzwerke und Wissensnetzwerke - verändern sich sehr schnell. Fast sekündlich befreunden sich neue Nutzer in sozialen Netzwerken und Wikipedia-Artikel werden überarbeitet und neu mit anderen Artikeln verlinkt. Diese Änderungen an der Verlinkung von Menschen oder Wissensbausteinen folgen bestimmten strukturellen Regeln und Charakteristiken, die weit weniger zufällig sind als man zunächst annehmen würde.
Das Ziel dieser Doktorarbeit ist es, drei charakteristische Verlinkungsmuster in diesen zwei Netzwerkkategorien vorherzusagen: das Hinzufügen von neuen Verlinkungen, das Entfernen bestehender Verbindungen und das Vorhandensein von latent negativen Verlinkungen. Zunächst widmen wir uns dem relativ neuen Problem der Vorhersage von Entlinkungen in einem Netzwerk. Hierzu gibt es zahlreiche soziologische Vorarbeiten, die nahelegen, dass die Ursachen zur Entstehung von Beziehungsabbrüchen komplementär zu den Gründen für neue Beziehungen sind. Obwohl diese Arbeiten eine strukturelle Ähnlichkeit der Probleme vermuten lassen, zeigen wir, dass beide Probleme nicht komplementär zueinander sind. Insbesondere zeigen wir, dass das dynamische Zusammenspiel von neuen Verlinkungen und Entlinkungen in Netzwerken durch die vier Zustände des Wachstums, des Zerfalls, der Stabilität und der Instabilität charakterisiert ist. Für Wissensnetzwerke zeigen wir, dass die Vorhersagbarkeit von Entlinkungen deutlich verbessert wird, wenn zeitliche Informationen wie der Zeitpunkt von einzelnen Netzwerkergeignissen mit genutzt werden. Wir präsentieren und evaluieren hierfür insgesamt vier verschiedene Strategien, die von zeitlichen Informationen Gebrauch machen. Für soziale Netzwerke analysieren wir, welche strukturellen Einflussfaktoren zur Entstehung und Löschung von Links zwischen Benutzern in Twitter indikativ sind. Auch hier zeigt sich, dass zeitliche Informationen darüber, dass eine Kante schon einmal gelöscht wurde, die Vorhersagbarkeit von Verlinkungen und insbesondere Entlinkungen enorm verbessert. Im letzten Teil der Doktorarbeit zeigen wir, wie negative Beziehungen (beispielsweise Misstrauen oder Feindschaft) aus positiven Beziehungen zwischen Nutzern (etwa Vertrauen und Freundschaft) abgeleitet werden können. Dies ist besonders relevant für Netzwerke, in denen nur positive Beziehungen kenntlich gemacht werden können. Für dieses Szenario zeigen wir, wie latent negative Beziehungen zwischen Nutzern dennoch erkannt werden können.