Filtern
Erscheinungsjahr
- 2013 (2) (entfernen)
Dokumenttyp
- Masterarbeit (2) (entfernen)
Sprache
- Englisch (2) (entfernen)
Schlagworte
- Text Analysis (1)
- Text Mining (1)
Große Mengen qualitativer Daten machen die Verwendung computergestützter Verfahren bei deren Analyse unvermeidlich. In dieser Thesis werden Text Mining als disziplinübergreifender Ansatz, sowie die in den empirischen Sozialwissenschaften üblichen Methoden zur Analyse von schriftlichen Äußerungen vorgestellt. Auf Basis dessen wird ein Prozess der Extraktion von Konzeptnetzwerken aus Texten skizziert, und die Möglichkeiten des Einsatzes von Verfahren zur Verarbeitung natürlicher Sprachen aufgezeigt. Der Kern dieses Prozesses ist die Textverarbeitung, zu deren Durchführung Softwarelösungen die sowohl manuelles als auch automatisiertes Arbeiten unterstützen, notwendig sind. Die Anforderungen an diese Werkzeuge werden unter Berücksichtigung des initiierenden Projektes GLODERS, welches sich der Erforschung von Schutzgelderpressung durchführenden Gruppierungen als Teil des globalen Finanzsystems widmet, beschrieben, und deren Erfüllung durch die zwei hervorstechendsten Kandidaten dargelegt. Die Lücke zwischen Theorie und Praxis wird durch die prototypische Anwendung der Methode unter Einbeziehung der beiden Lösungen an einem dem Projekt entspringenden Datensatz geschlossen.
Wir präsentieren die konzeptuellen und technologischen Grundlagen einer verteilten natürlich sprachlichen Suchmaschine, die einen graph-basierten Ansatz zum Parsen einer Anfrage verwendet. Das Parsing-Modell, das in dieser Arbeit entwickelt wird, generiert eine semantische Repräsentation einer natürlich sprachlichen Anfrage in einem 3-stufigen, übergangsbasierten Verfahren, das auf probabilistischen Patterns basiert. Die semantische Repräsentation einer natürlich sprachlichen Anfrage wird in Form eines Graphen dargestellt, der Entitäten als Knoten und deren Relationen als Kanten repräsentiert. Die präsentierte Systemarchitektur stellt das Konzept einer natürlich sprachlichen Suchmaschine vor, die sowohl in Bezug auf die einbezogenen Vokabulare, die zum Parsen der Syntax und der Semantik einer eingegebenen Anfrage verwendet werden, als auch in Bezug auf die Wissensquellen, die zur Gewinnung von Suchergebnissen konsultiert werden, unabhängig ist. Diese Funktionalität wird durch die Modularisierung der Systemkomponenten erreicht, die externe Daten durch flexible Module anspricht, welche zur Laufzeit modifiziert werden können. Wir evaluieren die Leistung des Systems indem wir die Genauigkeit des syntaktischen Parsers, die Präzision der gewonnenen Suchergebnisse sowie die Geschwindigkeit des Prototyps testen.