Model-dependent software evaluation of text-processing tools
- In this work a framework is developed that is used to create an evaluation scheme for the evaluation of text processing tools. The evaluation scheme is developed using a model-dependent software evaluation approach and the focus of the model-dependent part is the text-processing process which is derived from the Conceptual Analysis Process developed in the GLODERS project. As input data a German court document is used containing two incidents of extortion racketeering which happened in 2011 and 2012. The evaluation of six different tools shows that one tool offers great results for the given dataset when it is compared to manual results. It is able to identify and visualize relations between concepts without any additional manual work. Other tools also offer good results with minor drawbacks. The biggest drawback for some tools is the unavailability of models for the German language. They can perform automated tasks only on English documents. Nonetheless some tools can be enhanced by self-written code which allows users with development experience to apply additional methods.
- Unstrukturierte Textdokumente enthalten viele Informationen, die heutzutage mit automatisierten Methoden extrahiert werden können. In dieser Arbeit wird ein Framework entwickelt, mit dessen Hilfe ein Evaluationsschema zur Evaluation von Textverarbeitungstools erarbeitet wird. Das Evaluationsschema basiert auf der Modelabhängigen Softwarevaluation und der modelabhängige Teil basiert auf dem Verarbeitungsprozess, der von dem Conceptual Analysis Process abgeleitet ist. Der Conceptual Analysis Process ist im Rahmen des GLODERS Projektes entwickelt wurden. GLODERS ist ein EU-Projekt mit dem Fokus, ein IKT Modell zu entwickeln, welches helfen soll, Extortion Racket Systems besser zu verstehen. Im Rahmes des GLODERS Projektes wurden Gerichtsdokumente eines Falles in Deutschland zu Verfügungrngestellt, die in dieser Arbeit die Datengrundlage stellen. Zum Schutz involvierter Personen sind die Daten anonymisiert. Mit dem entwickelten Schema werden dann sechs verschiedene Softwarelösungen in Bezug auf die automatisierte Verarbeitungrnvon unstrukturierten Textdokumenten evaluiert.