Implementation of Modified Kneser-Ney Smoothing on Top of Generalized Language Models for Next Word Prediction

Körner, Martin Christian

Treffer 1 von 1

Implementation of Modified Kneser-Ney Smoothing on Top of Generalized Language Models for Next Word Prediction

Next word prediction is the task of suggesting the most probable word a user will type next. Current approaches are based on the empirical analysis of corpora (large text files) resulting in probability distributions over the different sequences that occur in the corpus. The resulting language models are then used for predicting the most likely next word. State-of-the-art language models are based on n-grams and use smoothing algorithms like modified Kneser-Ney smoothing in order to reduce the data sparsity by adjusting the probability distribution of unseen sequences. Previous research has shown that building word pairs with different distances by inserting wildcard words into the sequences can result in better predictions by further reducing data sparsity. The aim of this thesis is to formalize this novel approach and implement it by also including modified Kneser-Ney smoothing.
Next Word Prediction beschreibt die Aufgabe, das Wort vorzuschlagen, welches ein Nutzer mit der höchsten Wahrscheinlichkeit als Nächstes eingeben wird. Momentane Ansätze basieren auf der Analyse sogenannter Corpora (große Textdateien) durch empirischen Methoden. Die resultierende Wahrscheinlichkeitsverteilungen über die vorkommenden Wortsequenzen werden als Language Models bezeichnet und zur Vorhersage des wahrscheinlichsten Wortes genutzt. Verbreitete Language Models basieren auf n-gram Sequenzen und Smoohting Algorithmen wie beispielsweise dem modifizierten Kneser-Ney Smoothing zur Anpassung der Wahrscheinlichkeit von ungesehenen Sequenzen. Vorherige Untersuchungen haben gezeigt, dass das Einfügen von Platzhaltern in solche n-gram Sequenzen zu besseren Ergebnissen führen kann, da dadurch die Berechnung von seltenen und ungesehenen Sequenzen weiter verbessert wird. Das Ziel dieser Arbeit ist die Formalisierung und Implementierung dieses neuen Ansatzes, wobei zusätzlich das modifizierte Kneser-Ney Smoothing eingesetzt werden soll.

Metadaten
Verfasserangaben:	Martin Christian Körner
URN:	urn:nbn:de:kola-7964
Betreuer:	Steffen Staab
Dokumentart:	Bachelorarbeit
Sprache:	Englisch
Datum der Fertigstellung:	15.01.2014
Datum der Veröffentlichung:	15.01.2014
Veröffentlichende Institution:	Universität Koblenz-Landau, Campus Koblenz, Universitätsbibliothek
Titel verleihende Institution:	Universität Koblenz, Fachbereich 4
Datum der Freischaltung:	15.01.2014
Seitenzahl:	III, 38 Seiten
Institute:	Fachbereich 4 / Institute for Web Science and Technologies
DDC-Klassifikation:	0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
Lizenz (Deutsch):	Es gilt das deutsche Urheberrecht: § 53 UrhG

Implementation of Modified Kneser-Ney Smoothing on Top of Generalized Language Models for Next Word Prediction

Volltext Dateien herunterladen

Metadaten exportieren

Weitere Dienste