Topic Models on Biased Corpora

Reif, Marcel

Das Suchergebnis hat sich seit Ihrer Suchanfrage verändert. Eventuell werden Dokumente in anderer Reihenfolge angezeigt.

Treffer 34 von 189

Zurück zur Trefferliste

Topic Models on Biased Corpora

Marcel Reif

Topic models are a popular tool to extract concepts of large text corpora. These text corpora tend to contain hidden meta groups. The size relation of these groups is frequently imbalanced. Their presence is often ignored when applying a topic model. Therefore, this thesis explores the influence of such imbalanced corpora on topic models. The influence is tested by training LDA on samples with varying size relations. The samples are generated from data sets containing a large group differences i.e language difference and small group differences i.e. political orientation. The predictive performance on those imbalanced corpora is judged using perplexity. The experiments show that the presence of groups in training corpora can influence the prediction performance of LDA. The impact varies due to various factors, including language-specific perplexity scores. The group-related prediction performance changes for groups when varying the relative group sizes. The actual change varies between data sets. LDA is able to distinguish between different latent groups in document corpora if differences between groups are large enough, e.g. for groups with different languages. The proportion of group-specific topics is under-proportional to the share of the group in the corpus and relatively smaller for minorities.
Topic Models sind ein beliebtes Werkzeug um Themen in großen Textkorpora zu identifizieren. Diese Textkorpora enthalten oft versteckte Meta-Gruppen. Das Größenverhältnis zwischen diesen Gruppen variiert meist stark. Die Präsenz dieser Gruppen wird in der Praxis oft ignoriert. Diese Masterarbeit erforscht daher, ob diese Gruppen Einfluss auf ein Topic Model haben. Um den Einfluss zu testen, wird LDA auf Samples mit unterschiedlichen Gruppengrößen trainiert. Die Samples werden von Textkorpora mit großen Gruppenunterschieden (d.h. Sprachunterschieden) und kleinen Gruppenunterschieden (d.h. Unterschiede in der politische Orientierung) generiert. Die Leistungsfähigkeit von LDA wird per "Perplexity" evaluiert. Der Einfluss von Gruppen auf die generelle Leistungsfähigkeit von Topic Models hängt von verschiedenen Faktoren der Gruppen ab, z.B. der Vorhersagbarkeit der Sprache generell. Die Leistungsfähigkeit der Topic Models für die einzelnen Gruppen wird von der Variation der relativen Gruppengrößen beeinflusst. Allerdings ist der Effekt für alle Datensätze verschieden. LDA kann die Gruppen intern unterscheiden, wenn die Unterschiede der Gruppen groß genug sind (z.B. Sprachunterschiede). Der Anteil der Topics, die explizit für eine Gruppe gelernt werden, ist jedoch unterproportional zu dem Anteil der Gruppe im Trainingskorpus. Dieser Effekt verstärkt sich für kleinere Minderheiten.

Metadaten
Verfasserangaben:	Marcel Reif
URN:	urn:nbn:de:kola-15814
Betreuer:	Claudia Wagner, Christoph Kling
Dokumentart:	Masterarbeit
Sprache:	Englisch
Datum der Fertigstellung:	31.01.2018
Datum der Veröffentlichung:	01.02.2018
Veröffentlichende Institution:	Universität Koblenz, Universitätsbibliothek
Titel verleihende Institution:	Universität Koblenz, Fachbereich 4
Datum der Abschlussprüfung:	03.02.2018
Datum der Freischaltung:	01.02.2018
Seitenzahl:	ix, 60
Institute:	Fachbereich 4 / Institute for Web Science and Technologies
Lizenz (Deutsch):	Es gilt das deutsche Urheberrecht: § 53 UrhG

Topic Models on Biased Corpora

Volltext Dateien herunterladen

Metadaten exportieren

Weitere Dienste