Filtern
Erscheinungsjahr
- 2012 (25) (entfernen)
Dokumenttyp
Sprache
- Englisch (25) (entfernen)
Schlagworte
- Petri-Netze (2)
- probability propagation nets (2)
- 101companies (1)
- API Analysis (1)
- API Migratiom (1)
- Archivierung (1)
- Automatisches Beweisverfahren (1)
- Beschreibungslogik (1)
- Cloud Computing (1)
- Computerspiel (1)
Institut
- Fachbereich 4 (25) (entfernen)
Die Magnetresonanztomographie (MRT) ist ein bildgebendes Verfahren, das in der medizinischen Diagnostik zur Darstellung von Struktur und Funktion der Gewebe und Organe im Körper eingesetzt wird. Diffusionsgewichtete Bildgebung ist ein spezielles bildgebendes MRT Verfahren, welches es ermöglicht, nichtinvasiv und in vivo Einblicke in den Verlauf von Nervenbahnen zu geben. Es erlaubt damit, Aussagen über die Struktur und Integrität dieser Verbindungsbahnen zu treffen. Im klinischen Alltag findet diese Modalität Anwendung in der neurochirurgischen Operationsplanung, wie beispielsweise bei Resektionen von Läsionen, die in wichtigen funktionellen oder tiefiegenden Arealen liegen, wo die Beschädigungsgefahr wichtiger Nervenbahnen gegeben ist. Kommt es im Zuge der Operation zu einer etwaigen Durchtrennung von wichtigen Bahnen, kann dies zu erheblichen funktionellen Beeinträchtigung führen. Diese Arbeit gibt eine Einführung in die MRT-Bildgebung und wird sich im Speziellen mit der Aufnahme von diffusionsgewichtetenMRT- Daten beschäftigen. Generell besteht das Problem, dass das Auflösungsvermögen von Diffusionsdaten relativ niedrig ist in Relation zum Aufnahmeobjekt. So werden in einem einzelnen 3D Volumenelement, auch Voxel genannt, eine Reihe von Nerventrakten abgebildet, die sich beispielsweise kreuzen, aufsplitten oder auffächern. Hier besteht die Notwendigkeit, diese Voxel zu identifizieren und zu klassifizieren, um auch in schwierigen Regionen aus den lokalen Diffusionsdaten die Verläufe von Nervenbündeln möglichst exakt zu rekonstruieren. Diese Rekonstruktion wird durch die sogenannte Traktographie realisiert. Im Zuge dieser Arbeit werden wir existierende Rekonstruktionsmethoden, wie beispielsweise diffusion tensor imaging (DTI) und q-ball imaging (QBI) auf synthetisch generierten Daten untersuchen. Wir werden herausstellen, welche wertvollen Informationen die rekonstruierten Daten liefern können und welche individuellen Einschränkungen es gibt. QBI rekonstruiert eine orientation distribution function (ODF), deren lokalen Maxima in vielen Fällen mit den Richtungen der Nervenbahnen übereinstimmen. Wir bestimmen diese lokalen Maxima. Auf den Metriken des Diffusionstensors wird eine neue voxelbasierte Klassifikation vorgestellt. Die Vereinigung von voxelbasierter Klassifikation, lokalen Maxima und globalen Informationen aus der Nachbarschaft eines Voxels ist der Hauptbeitrag dieser Arbeit und führt zur Entwicklung eines globalen Klassifikators, der mögliche Traktographie-Richtungen vorgibt und asymmetrische Konfigurationen ermittelt. Im Anschluss wird ein eigener Traktographie-Algorithmus vorgestellt, der auf den Ergebnissen des globalen Klassifikators arbeitet und somit auch Aufsplittungen von Nervenbahnen abbilden kann.
In dieser Ausarbeitung beschreibe ich die Ergebnisse meiner Untersuchungen zur Erweiterung des LogAnswer-Systemsmit nutzerspezifischen Profilinformationen. LogAnswer ist ein natürlichsprachliches open-domain Frage-Antwort-System. Das heißt: es beantwortet Fragen zu beliebigen Themen und liefert dabei konkrete (möglichst knappe und korrekte) Antworten zurück. Das System wird im Rahmen eines Gemeinschaftsprojekts der Arbeitsgruppe für künstliche Intelligenz von Professor Ulrich Furbach an der Universität Koblenz-Landau und der Arbeitsgruppe Intelligent Information and Communication Systems (IICS) von Professor Hermann Helbig an der Fernuniversität Hagen entwickelt. Die Motivation meiner Arbeit war die Idee, dass der Prozess der Antwortfindung optimiert werden kann, wenn das Themengebiet, auf das die Frage abzielt, im Vorhinein bestimmt werden kann. Dazu versuchte ich im Rahmen meiner Arbeit die Interessensgebiete von Nutzern basierend auf Profilinformationen zu bestimmen. Das Semantic Desktop System NEPOMUK wurde verwendet um diese Profilinformationen zu erhalten. NEPOMUK wird verwendet um alle Daten, Dokumente und Informationen, die ein Nutzer auf seinem Rechner hat zu strukturieren. Dazu nutzt das System ein sogenanntes Personal Information Model (PIMO) in Form einer Ontologie. Diese Ontologie enthält unter anderem eine Klasse "Topic", welche die wichtigste Grundlage für das Erstellen der in meiner Arbeit verwendeten Nutzerprofile bildete. Konkret wurde die RDF-Anfragesprache SPARQL verwendet, um eine Liste aller für den Nutzer relevanten Themen aus der Ontologie zu filtern. Die zentrale Idee meiner Arbeit war es nun diese Profilinformationen zur Optimierung des Ranking von Antwortkandidaten einzusetzen. In LogAnswer werden zu jeder gestellten Frage bis zu 200 potentiell relevante Textstellen aus der deutschen Wikipedia extrahiert. Diese Textstellen werden auf Basis von Eigenschaften (wie z.B. lexikalische Übereinstimmungen zwischen Frage und Textstelle) geordnet, da innerhalb des zur Verfügung stehenden Zeitlimits nicht alle Kandidaten bearbeitet werden können.
Mein Ansatz verfolgte das Ziel, diesen Algorithmus durch Nutzerprofile so zu erweitern, dass Antwortkandidaten, welche für den Benutzer relevante Informationen enthalten, höher in der Rangfolge eingeordnet werden. Zur Umsetzung dieser Idee musste eine Methode gefunden werden, um zu bestimmen ob ein Antwortkandidat mit dem Profil übereinstimmt. Da sich die in einer Textstelle enthaltenen Informationen in den meisten Fällen auf das übergeordnete Thema des Artikels beziehen, ohne den Namen des Artikels explizit zu erwähnen, wurde in meiner Implementierung der Artikelname betrachtet, um zu ermitteln, zu welchem Themengebiet die Textstelle Informationen liefert. Als zusätzliches Hilfsmittel wurde außerdem die DBpedia-Ontologie eingesetzt, welche die Informationen der Wikipedia strukturiert im RDF Format enthält. Mit Hilfe dieser Ontologie war es möglich, jeden Artikel in Kategorien einzuordnen, die dann mit den im Profil enthaltenen Stichworten verglichen wurden. Zur Untersuchung der Auswirkungen des Ansatzes auf das Ranking-Verfahren wurden mehrere Testläufe mit je 200 Testfragen durchgeführt. Die erste Testmenge bestand aus zufällig ausgewählten Fragen, die mit meinem eigenen Nutzerprofil getestet wurden. Dieser Testlauf lieferte kaum nutzbare Ergebnisse, da nur bei 29 der getesteten Fragen überhaupt ein Antwortkandidat mit dem Profil in Verbindung gebracht werden konnte. Außerdem konnte eine potentielle Verbesserung der Ergebnisse nur bei einer dieser 29 Fragen festgestellt werden, was zu der Schlussfolgerung führte, dass der Einsatz von Profildaten nicht für Anwendungsfälle geeignet ist, in denen die Fragen keine Korrelation mit dem genutzten Profil aufweisen.
Da die Grundannahme meiner Arbeit war, dass Nutzer in erster Linie Fragen zu den Interessensgebieten stellen, welche sich aus ihrem Profil ableiten lassen, sollten die weiteren Testläufe genau diesen Fall beleuchten. Dazu wurden 200 Testfragen aus dem Bereich Sport ausgewählt und mit einem Profil getestet, welches Stichworte zu unterschiedlichen Sportarten enthielt. Die Tests mit den Sportfragen waren wesentlich aussagekräftiger. Auch hier deuteten die Ergebnisse darauf hin, dass der Ansatz kein großes Potential zur Verbesserung des Rankings hat. Eine genauere Betrachtung einiger ausgewählter Beispiele zeigte allerdings, dass die Integration von Profildaten für bestimmte Anwendungsfälle, wie z.B. offene Fragen für die es mehr als eine korrekte Antwort gibt, durchaus zu einer Verbesserung der Ergebnisse führen kann. Außerdem wurde festgestellt, dass viele der schlechten Ergebnisse auf Inkosistenzen in der DBpedia-Ontologie und grundsätzliche Probleme im Umgang mit Wissensbasen in natürlicher Sprache beruhen.
Die Schlussfolgerung meiner Arbeit ist, dass der in dieser Arbeit vorgestellte Ansatz zur Integration von Profilinformationen für den aktuellen Anwendungsfall von LogAnswer nicht geeignet ist, da vor allem Faktenwissen aus sehr unterschiedlichen Domänen abgefragt wird und offene Fragen nur einen geringen Anteil ausmachen.
Hinsichtlich der rapide anwachsenden Menge an jährlich produzierten Daten und der wachsenden Akzeptanz des Enterprise 2.0, müssen sich Unternehmen immer stärker mit dem Management ihrer Daten befassen. Inhalt, der unkoordiniert erstellt und abgelegt wird, kann zu Datensilos führen (Williams & Hardy 2011, S.57), welche lange Suchzeiten, unzugängliche Daten und in der Konsequenz monetäre Verluste hervorrufen können. Das "sich ausdehnende digitale Universum" zwingt Unternehmen zur Entwicklung neuer Archivierungslösungen und Records Management Richtlinien (Gantz et al. 2007, S.13). Enterprise Content Management (ECM) ist das Untersuchungsfeld, welches sich mit diesen Anforderungen beschäftigt. Es ist im wissenschaftlichen Kontext des Enterprise Information Management angesiedelt. Ziel dieser Bachelor-Arbeit ist es, herauszufinden in welchem Umfang aktuelle Enterprise Content Management Systeme (ECMS) diese neuen Anforderungen, vor allem die Archivierung von Daten aus dem Enterprise 2.0, unterstützen. Zu diesem Zweck wurden drei Szenarien erstellt, mit deren Hilfe zwei verschiedene Arten von ECMS (ein Open Source - und ein proprietäres System), ausgewählt auf Grundlage einer kurzen Marktübersicht, evaluiert werden sollen. Die Anwendung der Szenarien zeigt, dass sich die Software Anbieter über die Probleme der Industrie im Klaren sind: beide Programme stellen Funktionen zur Archivierung von Daten aus online Teamarbeit sowie Möglichkeiten zum Records Management zur Verfügung. Aber die Integration beider Funktionalitäten ist nicht oder nur unvollständig gelöst. An dieser Stelle werden neue Fragen - wie z.B. "Welche im Enterprise 2.0 anfallenden Daten besitzen die Wichtigkeit, als "Business Record" gespeichert zu werden?" - aufgeworfen und müssen in zukünftiger Forschung betrachtet werden.
In einigen Bereichen des automatischen Theorembeweisens benötigt man das Wissen, dass Konstanten paarweise ungleich sind. Um dieses zu erreichen, fügt man Fakten, die dieses Wissen explizit angeben, zu den Wissensbasen hinzu. Wenn man diese Eigenschaft für viele Konstanten definieren muss, wird die Klauselmenge der Wissensbasen schnell sehr umfangreich und wegen der vielen - eigentlich irrelevanten - Ungleichheiten kann man den Blick auf das eigentlich formalisierte Problem verlieren. Da die Größe der Wissensbasis in vielen Fällen Einfluss auf die Geschwindigkeit hat, ist es auch aus diesem Grund sinnvoll, die Anzahl dieser Fakten gering zu halten. Die unique name assumption erlaubt auf die Einführung der Ungleichheits-Fakten zu verzichten, da sie festlegt, dass zwei Konstanten genau dann gleich sind, wenn ihre Interpretationen identisch sind. Auf diesem Wege lässt sich das Aufblähen von Wissensbasen mit Ungleichheits-Fakten verhinde. In dieser Arbeit wird der E-Hyper-Tableau-Kalkül erweitert um die unique name assumption nutzen zu können. Der in dieser Arbeit entwickelte Kalkül ist vollständig und korrekt, was durch formale Beweise in dieser Arbeit belegt wird. Um zu zeigen, dass die native Behandlung von Ungleichheiten dem Einführen von Ungleichheits-Fakten überlegen ist, wird der Kalkül in den Theorembeweiser E-KRHyper implementieren. Der Theorembeweiser E-KRHyper ist ein etabliertes System und basiert in seiner ursprünglichen Version auf dem E-Hyper-Tableau. Mit systematischen Tests wird dann gezeigt, dass die entwickelte Implementierung des erweiterten Kalküls nie schlechter ist, als der original E-KRHyper, diesen aber in einigen Fällen in der Ausführungsgeschwindigkeit deutlich übertrifft.