Institut für Computervisualistik
Filtern
Dokumenttyp
- Dissertation (18) (entfernen)
Schlagworte
Institut
- Institut für Computervisualistik (18) (entfernen)
Das Hauptziel der vorliegenden Arbeit ist die Absicherung der Qualität eines pharmazeutischen Produktionsprozesses durch die Überprüfung des Volumens mikroskopischer Polymerstäbchen mit einem hochgenauen 3D Messverfahren. Die Polymerstäbchen werden für pharmazeutische Anwendungen hergestellt. Aus Gründen der Qualitätssicherung muss das Istgewicht überprüft werden. Derzeit werden die Polymerstäbchen stichprobenartig mit einer hochpräzisen Waage gewogen. Für die nächste Generation von Polymeren wird angenommen, dass die Produktabmessungen weiter reduziert werden sollen und die Produktionstoleranzen auf 2,5% gesenkt werden. Die daraus resultierenden Genauigkeitsanforderungen übersteigen jedoch die Möglichkeiten der Wiegetechnik. Bei homogenen Materialien ist die Masse proportional zum Volumen. Aus diesem Grund kommt dessen Bestimmung als Alternative in Frage. Dies verschafft Zugang zu optischen Messverfahren und deren Flexibilität und Genauigkeitpotenzial. Für den Entwurf eines auf die Fragestellung angepassten Messkonzeptes sind weiterhin von Bedeutung, dass das Objekt kontaktlos, mit einer Taktzeit von maximal fünf Sekunden vermessen und das Volumen approximiert wird. Die Querschnitte der Polymerstäbchen sind etwa kreisförmig. Aufgrund der Herstellung der Fragmente kann nicht davon ausgegangen werden, dass die Anlageflächen orthogonal zur Symmetrieachse des Objektes sind. Daher muss analysiert werden, wie sich kleine Abweichungen von kreisförmigen Querschnitten sowie die nicht idealen Anlageflächen auswirken. Die maximale Standardabweichung für das Volumen, die nicht überschritten werden sollte, beträgt 2,5%. Dies entspricht einer maximalen Abweichung der Querschnittsfläche um 1106 µm² (Fehlerfortpfanzung). Als Bewertungskriterium wird der Korrelationskoeffzient zwischen den gemessenen Volumina und den Massen bestimmt. Ein ideales Ergebnis wäre 100%. Die Messung zielt auf einen Koeffzienten von 98% ab. Um dies zu erreichen, ist ein präzises Messverfahren für Volumen erforderlich. Basierend auf dem aktuellen Stand der Technik können die vorhandenen optischen Messverfahren nicht verwendet werden. Das Polymerstäbchen wird von einer Kamera im Durchlicht beobachtet. Daher sind der Durchmesser und die Länge sichtbar. Das Objekt wird mittels einer mechanischen Vorrichtung um die Längsachse gedreht. So können Bilder von allen Seiten aufgenommen werden. Der Durchmesser und die Länge werden mit der Bildverarbeitung berechnet. Das neue Konzept vereint die Vorteile der Verfahren: Es ist unempfindlich gegen Farb-/Helligkeitsänderungen und die Bilder können in beliebiger Anzahl aufgenommen werden. Außerdem sind die Erfassung und Auswertung wesentlich schneller. Es wird ein Entwurf und die Umsetzung einer Lösung zur hochpräzisen Volumenmessung von Polymerstäbchen mit optischer Messtechnik und Bildverarbeitung ausgearbeitet. Diese spezielle Prozesslösung in der Prozesslinie (inline) sollte eine 100%ige Qualitätskontrolle während der Produktion garantieren. Die Zykluszeiten des Systems sollte fünf Sekunden pro Polymerstäbchen nicht überschreiten. Die Rahmenbedienungen für den Prozess sind durch die Materialeigenschaften des Objekts, die geringe Objektgröße (Breite = 199 µm, Länge = 935 µm bis 1683 µm) und die undeffinierte Querschnittsform (durch den Trocknungsprozess) vorgegeben. Darüber hinaus sollten die Kosten für den Prozess nicht zu hoch sein. Der Messaufbau sollte klein sein und ohne Sicherheitsvorkehrungen oder Abschirmungen arbeiten. Das entstandene System nimmt die Objekte in verschiedenen Winkelschritten auf, wertet mit Hilfe der Bildverarbeitung die Aufnahmen aus und approximiert das Volumen. Der Korrelationskoffizient zwischen Volumen und Gewicht beträgt für 77 Polymerstäbchen mit einem Gewicht von 37 µg bis 80 µg 99; 87%. Mit Hilfe eines Referenzsystems kann die Genauigkeit der Messung bestimmt werden. Die Standardabweichung sollte maximal 2,5% betragen. Das entstandene System erzielt eine maximale Volumenabweichung von 1,7%. Die Volumenvermessung erfüllt alle Anforderungen und kann somit als Alternative für die Waage verwendet werden.
Bio-medical data comes in various shapes and with different representations.
Domain experts use such data for analysis or diagnosis,
during research or clinical applications. As the opportunities to obtain
or to simulate bio-medical data become more complex and productive,
the experts face the problem of data overflow. Providing a
reduced, uncluttered representation of data, that maintains the data’s
features of interest falls into the area of Data Abstraction. Via abstraction,
undesired features are filtered out to give space - concerning the
cognitive and visual load of the viewer - to more interesting features,
which are therefore accentuated. To address this challenge, the dissertation
at hand will investigate methods that deal with Data Abstraction
in the fields of liver vasculature, molecular and cardiac visualization.
Advanced visualization techniques will be applied for this purpose.
This usually requires some pre-processing of the data, which will also
be covered by this work. Data Abstraction itself can be implemented
in various ways. The morphology of a surface may be maintained,
while abstracting its visual cues. Alternatively, the morphology may
be changed to a more comprehensive and tangible representation.
Further, spatial or temporal dimensions of a complex data set may
be projected to a lower space in order to facilitate processing of the
data. This thesis will tackle these challenges and therefore provide an
overview of Data Abstraction in the bio-medical field, and associated
challenges, opportunities and solutions.
Die zytologische Untersuchung des Knochenmarks dient der Abklärung von
Abweichungen des Differentialblutbildausstriches, zur Ursachenbestimmung bei Blutarmut (Anämie), dem Ausschluss eines Knochenmarkbefalls bei Lymphknotenvergrößerungen (Lymphomen) und wird zudem bei Verdacht auf Leukämie durchgeführt.
Selbst für erfahrene Hämatologen ist die manuelle Klassifikation von Knochenmarkzellen zeitaufwändig, fehleranfällig und subjektiv. Aus diesem Grund wurden im Rahmen dieser Arbeit neue Methoden der Bildverarbeitung und Mustererkennung für eine automatische Klassifikation von hämatopoetischen Zellen samt Vorverarbeitung für ein computer-assistiertes Mikroskopiesystem entwickelt, welche anhand einer einzigartig großen Referenzdatenbank evaluiert und ausgewertet wurden. Die vorgeschlagenen Bildanalyseverfahren für Knochenmarkpräparate, welche insbesondere die Detektion der Ausstriche, die Bestimmung von relevanten Regionen, die Lokalisierung und Segmentierung von einzelnen Zellen sowie die Merkmalsextraktion und Klassifikation automatisieren, liefern die Basis für das weltweit erste System zur automatischen, morphologischen Analyse von Knochenmarkpräparaten für die Leukämiediagnose und stellen daher einen wichtigen Beitrag für eine bessere und effizientere Patientenversorgung in der Zukunft dar.
Technologische Fortschritte auf dem Gebiet der integrierten Halbleitertechnik, die unter anderem auch zur gestiegenen Leistungsfähigkeit der Kamerasensoren beitragen, konzentrierten sich bisher primär auf die Schnelligkeit und das Auflösungsvermögen der Sensoren. Die sich ständig verändernde Entwicklung hat jedoch direkte Folgen auf das physikalische Verhalten einer Kamera und damit auch Konsequenzen für die erreichbare geometrische Genauigkeit einer photogrammetrischen 3D-Rekonstruktion. Letztere stand bisher nicht im Fokus der Forschung und ist eine Aufgabe, der sich diese Arbeit im Sinne der Photogrammetrie und Messtechnik stellt. Aktuelle Untersuchungen und Erfahrungen aus industriellen Projekten zeigen in diesem Zusammenhang, dass das geometrisch-physikalische Verhalten digitaler Kameras - für höchste photogrammetrische Ansprüche - noch nicht ausreichend modelliert ist. Direkte Aussagen zur erreichbaren Genauigkeit bei gegebener Hardware erweisen sich daher bislang als unzureichend. Ferner kommt es aufgrund der unpräzisen Modellierung zu Einbußen in der Zuverlässigkeit der erreichten Ergebnisse. Für den Entwickler präziser kamerabasierter Messverfahren folgt daraus, dass zu einer optimalen Schätzung der geometrischen Genauigkeit und damit auch vollständigen Ausschöpfung der Messkamera geeignete mathematische Modelle erforderlich sind, die das geometrisch physikalische Verhalten bestmöglich beschreiben. Diese Arbeit beschreibt, wie die erreichbare Genauigkeit einer Bündelblockausgleichung, schon a priori mithilfe des EMVA1288 Standards approximiert werden kann. Eine in diesem Zusammenhang wichtige Teilaufgabe ist die Schaffung einer optimalen Messanordnung. Hierzu gehören Untersuchungen der üblicherweise verwendeten Kalibrierkörper und die Beseitigung von systematischen Fehlern vor und nach der Bündelblockausgleichung. Zum Nachweis dieser Systematiken wird eine auf statistischem Lernen basierende Methode beschrieben und untersucht. Erst wenn alle genauigkeitsmindernden Einflüsse berücksichtigt sind, wird der Anteil des Sensors in den Messdaten sichtbar und damit auch mathematisch parametrisierbar. Die Beschreibung des Sensoreinflusses auf die erreichbare Genauigkeit der Bündelblockausgleichung erfolgt in drei Schritten. Der erste Schritt beschreibt den Zusammenhang zwischen ausgewählten EMVA1288-Kennzahlen und der Unsicherheit eines Grauwertes. Der zweite Schritt ist eine Modellierung dieser Grauwertunsicherheit als Zentrumsunsicherheit einer Zielmarke. Zur Beschreibung dieser Unsicherheit innerhalb der Bündelblockausgleichung wird ein stochastisches Modell, basierend auf dem EMVA1288-Standard, vorgeschlagen. Ausgehend vom Rauschen des Zielmarkenmittelpunktes wird im dritten Schritt die Unsicherheit im Objektraum beispielhaft mit Hilfe von physikalisch orientierten Simulationen approximiert. Die Wirkung der vorgeschlagenen Methoden wird anhand von Realkalibrierungen nachgewiesen. Abschließend erfolgt die Diskussion der vorgeschlagenen Methoden und erreichten Ergebnisse sowie ein Ausblick auf kommende Untersuchungen.
Ziel dieser Arbeit ist die Entwicklung von Verfahren zur realistischen augmentierten Bildsynthese auf Basis von 3D-Photo-Collections. 3D-Photo-Collections sind aus Einzelfotos automatisch erzeugte Repräsentationen einer realen Szene und geben diese als Menge von Bildern mit bekannten Kameraposen sowie einer groben punktbasierten Modellierung der Szenengeometrie wieder. Es wird eine fotorealistische augmentierte Bildsynthese von realen und virtuellen Anteilen in Echtzeit angestrebt, wobei die reale Szene durch 3DPhoto-Collections beschrieben wird. Um dieses Ziel zu erreichen, werden drei Problemfelder bearbeitet.
Da die Fotos unter Umständen in verschiedenen geräteabhängigen RGB Farbräumen liegen, ist eine Farbcharakterisierung der 3D-Photo-Collections notwendig, um korrekte, der menschlichen Wahrnehmung entsprechende Farbinformationen zu erhalten. Das hierzu entwickelte Verfahren transformiert alle Bilder automatisch in einen gemeinsamen Farbraum und vereinfacht so die Farbcharakterisierung von 3D-Photo-Collections.
Als Hauptproblem der augmentierten Bildsynthese muss die Umgebungsbeleuchtung der realen Szene bekannt sein, um eingefügte virtuelle Anteile konsistent zu den realen Anteilen zu beleuchten. Hierfür wurden zwei neue Verfahren zur Rekonstruktion der Umgebungsbeleuchtung aus den Bildern der 3D-Photo-Collection entwickelt.
Um eine Bildsynthese für beliebige Ansichten auf die Szene durchzuführen, wurde ein neues Verfahren zur bildbasierten Darstellung entwickelt, welches neue Ansichten auf die 3D-Photo-Collection unter direkter Verwendung der Punktwolke erzeugt. Dieser Ansatz erzeugt neue Ansichten in Echtzeit und erlaubt somit eine freie Navigation.
Insgesamt konnte mit den entwickelten Methoden gezeigt werden, dass 3D-Photo-Collections für Augmented-Reality eine geeignete Repräsentation von realen Anteilen sind und eine realistische Synthese mit virtuellen Anteilen durchgeführt werden kann.
Studien der vergangenen Jahre haben gezeigt, dass im Bereich der Datenschutzkompetenz ein Mangel bei Jugendlichen und jungen Erwachsenen besteht, jedoch standen Kinder und Jugendliche im Alter von zehn bis 13 Jahren dabei nicht so stark im Fokus. Daher ist die Leitfrage der Arbeit, wie die Datenschutzkompetenz bei Kindern und Jugendlichen in dem jüngeren Alter ausgebildet ist, um für diese Altersgruppe passende Konzepte entwickeln zu können. Zu Beginn der Arbeit wird ausgehend von einem Medienkompetenzmodell ein Datenschutzkompetenzmodell abgeleitet, welches als Grundlage für die weitere Felduntersuchung dient. An allgemeinbildenden weiterführenden Schulen in Rheinland-Pfalz wurde eine Erhebung durchgeführt, die zeigt, dass die Befragten im Bereich der Risikoabschätzung noch eine ausreichende, aber im Bereich des Wissens, der Auswahl- und Nutzungskompetenz und der Handlungskompetenz eine mangelhafte Kompetenz besitzen. Um diesem Problem zu begegnen, werden im letzten Teil der Arbeit Handlungsempfehlungen in Form von Lernzielbeschreibungen formuliert, um ausgehend davon zukünftig passende Lehr-Lern-Settings implementieren zu können.
Leichte Sprache (LS) ist eine vereinfachte Varietät des Deutschen in der barrierefreie Texte für ein breites Spektrum von Menschen, einschließlich gering literalisierten Personen mit Lernschwierigkeiten, geistigen oder entwicklungsbedingten Behinderungen (IDD) und/oder komplexen Kommunikationsbedürfnissen (CCN), bereitgestellt werden. LS-Autor*innen sind i.d.R. der deutschen Standardsprache mächtig und gehören nicht der genannten Personengruppe an. Unser Ziel ist es, diese zu befähigen, selbst am schriftlichen Diskurs teilzunehmen. Hierfür bedarf es eines speziellen Schreibsystems, dessen linguistische Unterstützung und softwareergonomische Gestaltung den spezifischen Bedürfnissen der Zielgruppe gerecht wird. EasyTalk ist ein System basierend auf computerlinguistischer Verarbeitung natürlicher Sprache (NLP) für assistives Schreiben in einer erweiterten Variante von LS (ELS). Es stellt den Nutzenden ein personalisierbares Vokabular mit individualisierbaren Kommunikationssymbolen zur Verfügung und unterstützt sie entsprechend ihres persönlichen Fähigkeitslevels durch interaktive Benutzerführung beim Schreiben. Intuitive Formulierungen für linguistische Entscheidungen minimieren das erforderliche grammatikalische Wissen für die Erstellung korrekter und kohärenter komplexer Inhalte. Einfache Dialoge kommunizieren mit einem natürlichsprachlichen Paraphrasengenerator, der kontextsensitiv Vorschläge für Satzkomponenten und korrekt flektierte Wortformen bereitstellt. Außerdem regt EasyTalk die Nutzer*innen an, Textelemente hinzuzufügen, welche die Verständlichkeit des Textes für dessen Leserschaft fördern (z.B. Zeit- und Ortsangaben) und die Textkohärenz verbessern (z.B. explizite Diskurskonnektoren). Um das System auf die Bedürfnisse der Zielgruppe zuzuschneiden, folgte die Entwicklung von EasyTalk den Grundsätzen der menschzentrierten Gestaltung (UCD). Entsprechend wurde das System in iterativen Entwicklungszyklen ausgereift, kombiniert mit gezielten Evaluierungen bestimmter Aspekte durch Gruppen von Expert*innen aus den Bereichen CCN, LS und IT sowie L2-Lernende der deutschen Sprache. Eine Fallstudie, in welcher Mitglieder der Zielgruppe das freie Schreiben mit dem System testeten, bestätigte, dass Erwachsene mit geringen Lese-, Schreib- und Computerfähigkeiten mit IDD und/oder CCN mit EasyTalk eigene persönliche Texte in ELS verfassen können. Das positive Feedback aller Tests inspiriert Langzeitstudien mit EasyTalk und die Weiterentwicklung des prototypischen Systems, wie z.B. die Implementierung einer s.g. Schreibwerkstatt.
In der vorliegenden Arbeit werden gamebasierte touristische Anwendungen untersucht.
Ausgehend von der These, dass für touristisches Freizeiterleben primär intrinsisch motivierende Anwendungen geeignet sind, werden zunächst intrinsische Motivationskonzepte untersucht. Dazu wird untersucht, wie Motivation gezielt herbeigeführt werden kann und ob sich gamebasierte Motivationskonzepte auf nichtspielerische Anwendungen übertragen lassen.
Darauf aufbauend wurden im Rahmen dieser Arbeit verschiedene touristische Anwendungen entwickelt und evaluiert. Ziel dieser Anwendungen ist es stets, einen Mehrwert für das touristische Freizeiterleben zu erzeugen. Die Anwendungen werden nach ihrer Mobilität kategorisiert. Es werden vollständig mobile, vollständig stationäre und hybride Systeme untersucht. Als Mehrwertkomponenten werden in dieser Arbeit spielbasierte Exploration einer Umgebung, Wissensvermittlung und soziale Interaktion zwischen Touristen untersucht.
Abschließend wird ein Autorentool für spielbasierte touristische Touren auf Smartphones entwickelt und untersucht, das seinerseits auf spielbasierte Elemente zurückgreift. Das Ziel dieses Systems ist es, Konzepte zu entwickeln, die beispielsweise eine Integration in soziale Netzwerke erlauben.
Die Arbeit beschäftigt sich mit dem Einsatz moderner Grafikhardware (GPU) für die Visualisierung und Verarbeitung medizinischer Volumendaten. Die zunehmende Steigerung der Rechenleistung ermöglicht den Einsatz von Standardsystemen für Anwendungsgebiete, die bisher nur speziellen Workstations vorbehalten waren. Zusammen mit dem wesentlichen Vorteil von Grafikhardware Daten direkt anzeigen zu können, sind Verfahren wie visualisierungsgestütztes Berechnen ("visual computing") oder interaktives Steuern von Berechnungen ("computational steering") erst möglich geworden. Darauf wird anhand mehrerer Beispielanwendungen und umgesetzten Konzepten wie den "ray textures" im Detail eingegangen. Da die zu verarbeitenden und darzustellenden Datenmengen stetig ansteigen, ist aufgrund von Speicher- und Bandbreiteneinschränkungen eine kompakte Repräsentation der Daten notwendig. Während die Datenkompression selbst eingehend erforscht wurde, beschäftigt sich die vorliegende Arbeit mit Möglichkeiten, Berechnungen direkt auf den komprimierten Daten durchführen zu können. Dazu wurden verschiedene Algorithmenklassen identifiziert und in die Wavelet-Domäne übertragen. Mit Hilfe von speziellen Varianten der komprimierten Repräsentation ist eine effiziente Umsetzung grundlegender Bildverarbeitungsalgorithmen möglich und zeigt zugleich das Potential dieses Ansatzes auf. Aus technischer Sicht wurde im Laufe der Arbeit die GPU-basierte Programmierumgebung "Cascada" entwickelt. Sowohl die Einführung von objektorientierten Konzepten in die Shaderprogrammierung, als auch eine hierarchische Repräsentation von Berechnungs- und/oder Visualisierungsschritten vereinfacht den Einsatz von Grafikhardware ohne wesentliche Leistungseinbußen. Dies wird anhand verschiedener Implementationen in den jeweiligen Beiträgen und zwei klinischen Projekten im Bereich der Diagnoseunterstützung gezeigt. Hierbei geht es zum einen um die semi-automatische Segmentierung der Leber in niedrig aufgelösten MR-Datensätzen, zum anderen um Möglichkeiten zur Vermessung von abdominalen Aortenaneurysmen; jeweils unterstützt durch Grafikhardware. Darüber hinaus ermöglicht "cascada" auch die Erweiterung hinsichtlich aktueller Architekturen für den universellen Einsatz von Grafikhardware, sowie künftige Entwicklungen durch ein modulares Design.
Human action recognition from a video has received growing attention in computer vision and has made significant progress in recent years. Action recognition is described as a requirement to decide which human actions appear in videos. The difficulties involved in distinguishing human actions are due to the high complexity of human behaviors as well as appearance variation, motion pattern variation, occlusions, etc. Many applications use human action recognition on captured video from cameras, resulting in video surveillance systems, health monitoring, human-computer interaction, and robotics. Action recognition based on RGB-D data has increasingly drawn more attention to it in recent years. RGB-D data contain color (Red, Green, and Blue (RGB)) and depth data that represent the distance from the sensor to every pixel in the object (object point). The main problem that this thesis deals with is how to automate the classification of specific human activities/actions through RGB-D data. The classification process of these activities utilizes a spatial and temporal structure of actions. Therefore, the goal of this work is to develop algorithms that can distinguish these activities by recognizing low-level and high-level activities of interest from one another. These algorithms are developed by introducing new features and methods using RGB-D data to enhance the detection and recognition of human activities. In this thesis, the most popular state-of-the-art techniques are reviewed, presented, and evaluated. From the literature review, these techniques are categorized into hand-crafted features and deep learning-based approaches. The proposed new action recognition framework is based on these two categories that are approved in this work by embedding novel methods for human action recognition. These methods are based on features extracted from RGB-D data that are
evaluated using machine learning techniques. The presented work of this thesis improves human action recognition in two distinct parts. The first part focuses on improving current successful hand-crafted approaches. It contributes into two significant areas of state-of-the-art: Execute the existing feature detectors, and classify the human action in the 3D spatio-temporal domains by testing a new combination of different feature representations. The contributions of this part are tested based on machine learning techniques that include unsupervised and supervised learning to evaluate this suitability for the task of human action recognition. A k-means clustering represents the unsupervised learning technique, while the supervised learning technique is represented by: Support Vector Machine, Random Forest, K-Nearest Neighbor, Naive Bayes, and Artificial Neural Networks classifiers. The second part focuses on studying the current deep-learning-based approach and how to use it with RGB-D data for the human action recognition task. As the first step of each contribution, an input video is analyzed as a sequence of frames. Then, pre-processing steps are applied to the video frames, like filtering and smoothing methods to remove the noisy data from each frame. Afterward, different motion detection and feature representation methods are used to extract features presented in each frame. The extracted features
are represented by local features, global features, and feature combination besides deep learning methods, e.g., Convolutional Neural Networks. The feature combination achieves an excellent accuracy performance that outperforms other methods on the same RGB-D datasets. All the results from the proposed methods in this thesis are evaluated based on publicly available datasets, which illustrate that using spatiotemporal features can improve the recognition accuracy. The competitive experimental results are achieved overall. In particular, the proposed methods can be better applied to the test set compared to the state-of-the-art methods using the RGB-D datasets.
Der Wettbewerb um die besten Technologien zur Realisierung des autonomen Fahrens ist weltweit in vollem Gange.
Trotz großer Anstrengungen ist jedoch die autonome Navigation in strukturierter und vor allem unstrukturierter Umgebung bisher nicht gelöst.
Ein entscheidender Baustein in diesem Themenkomplex ist die Umgebungswahrnehmung und Analyse durch passende Sensorik und entsprechende Sensordatenauswertung.
Insbesondere bildgebende Verfahren im Bereich des für den Menschen sichtbaren Spektrums finden sowohl in der Praxis als auch in der Forschung breite Anwendung.
Dadurch wird jedoch nur ein Bruchteil des elektromagnetischen Spektrums genutzt und folglich ein großer Teil der verfügbaren Informationen zur Umgebungswahrnehmung ignoriert.
Um das vorhandene Spektrum besser zu nutzen, werden in anderen Forschungsbereichen schon seit Jahrzehnten \sog spektrale Sensoren eingesetzt, welche das elektromagnetische Spektrum wesentlich feiner und in einem größeren Bereich im Vergleich zu klassischen Farbkameras analysieren. Jedoch können diese Systeme aufgrund technischer Limitationen nur statische Szenen aufnehmen. Neueste Entwicklungen der Sensortechnik ermöglichen nun dank der \sog Snapshot-Mosaik-Filter-Technik die spektrale Abtastung dynamischer Szenen.
In dieser Dissertation wird der Einsatz und die Eignung der Snapshot-Mosaik-Technik zur Umgebungswahrnehmung und Szenenanalyse im Bereich der autonomen Navigation in strukturierten und unstrukturierten Umgebungen untersucht. Dazu wird erforscht, ob die aufgenommen spektralen Daten einen Vorteil gegenüber klassischen RGB- \bzw Grauwertdaten hinsichtlich der semantischen Szenenanalyse und Klassifikation bieten.
Zunächst wird eine geeignete Vorverarbeitung entwickelt, welche aus den Rohdaten der Sensorik spektrale Werte berechnet. Anschließend wird der Aufbau von neuartigen Datensätzen mit spektralen Daten erläutert. Diese Datensätze dienen als Basis zur Evaluation von verschiedenen Klassifikatoren aus dem Bereich des klassischen maschinellen Lernens.
Darauf aufbauend werden Methoden und Architekturen aus dem Bereich des Deep-Learnings vorgestellt. Anhand ausgewählter Architekturen wird untersucht, ob diese auch mit spektralen Daten trainiert werden können. Weiterhin wird die Verwendung von Deep-Learning-Methoden zur Datenkompression thematisiert. In einem nächsten Schritt werden die komprimierten Daten genutzt, um damit Netzarchitekturen zu trainieren, welche bisher nur mit RGB-Daten kompatibel sind. Abschließend wird analysiert, ob die hochdimensionalen spektralen Daten bei der Szenenanalyse Vorteile gegenüber RGB-Daten bieten
This thesis addresses the automated identification and localization of a time-varying number of objects in a stream of sensor data. The problem is challenging due to its combinatorial nature: If the number of objects is unknown, the number of possible object trajectories grows exponentially with the number of observations. Random finite sets are a relatively new theory that has been developed to derive at principled and efficient approximations. It is based around set-valued random variables that contain an unknown number of elements which appear in arbitrary order and are themselves random. While extensively studied in theory, random finite sets have not yet become a leading paradigm in practical computer vision and robotics applications. This thesis explores random finite sets in visual tracking applications. The first method developed in this thesis combines set-valued recursive filtering with global optimization. The problem is approached in a min-cost flow network formulation, which has become a standard inference framework for multiple object tracking due to its efficiency and optimality. A main limitation of this formulation is a restriction to unary and pairwise cost terms. This circumstance makes integration of higher-order motion models challenging. The method developed in this thesis approaches this limitation by application of a Probability Hypothesis Density filter. The Probability Hypothesis Density filter was the first practically implemented state estimator based on random finite sets. It circumvents the combinatorial nature of data association itself by propagation of an object density measure that can be computed efficiently, without maintaining explicit trajectory hypotheses. In this work, the filter recursion is used to augment measurements with an additional hidden kinematic state to be used for construction of more informed flow network cost terms, e.g., based on linear motion models. The method is evaluated on public benchmarks where a considerate improvement is achieved compared to network flow formulations that are based on static features alone, such as distance between detections and appearance similarity. A second part of this thesis focuses on the related task of detecting and tracking a single robot operator in crowded environments. Different from the conventional multiple object tracking scenario, the tracked individual can leave the scene and later reappear after a longer period of absence. Therefore, a re-identification component is required that picks up the track on reentrance. Based on random finite sets, the Bernoulli filter is an optimal Bayes filter that provides a natural representation for this type of problem. In this work, it is shown how the Bernoulli filter can be combined with a Probability Hypothesis Density filter to track operator and non-operators simultaneously. The method is evaluated on a publicly available multiple object tracking dataset as well as on custom sequences that are specific to the targeted application. Experiments show reliable tracking in crowded scenes and robust re-identification after long term occlusion. Finally, a third part of this thesis focuses on appearance modeling as an essential aspect of any method that is applied to visual object tracking scenarios. Therefore, a feature representation that is robust to pose variations and changing lighting conditions is learned offline, before the actual tracking application. This thesis proposes a joint classification and metric learning objective where a deep convolutional neural network is trained to identify the individuals in the training set. At test time, the final classification layer can be stripped from the network and appearance similarity can be queried using cosine distance in representation space. This framework represents an alternative to direct metric learning objectives that have required sophisticated pair or triplet sampling strategies in the past. The method is evaluated on two large scale person re-identification datasets where competitive results are achieved overall. In particular, the proposed method better generalizes to the test set compared to a network trained with the well-established triplet loss.
Efficient Cochlear Implant (CI) surgery requires prior knowledge of the cochlea’s size and its characteristics. This information helps to select suitable implants for different patients. Registered and fused images helps doctors by providing more informative image that takes advantages of different modalities. The cochlea’s small size and complex structure, in addition to the different resolutions and head positions during imaging, reveals a big challenge for the automated registration of the different image modalities. To obtain an automatic measurement of the cochlea length and the volume size, a segmentation method of cochlea medical images is needed. The goal of this dissertation is to introduce new practical and automatic algorithms for the human cochlea multi-modal 3D image registration, fusion, segmentation and analysis. Two novel methods for automatic cochlea image registration (ACIR) and automatic cochlea analysis (ACA) are introduced. The proposed methods crop the input images to the cochlea part and then align the cropped images to obtain the optimal transformation. After that, this transformation is used to align the original images. ACIR and ACA use Mattes mutual information as similarity metric, the adaptive stochastic gradient descent (ASGD) or the stochastic limited memory Broyden–Fletcher–Goldfarb–Shanno (s-LBFGS) optimizer to estimate the parameters of 3D rigid transform. The second stage of nonrigid registration estimates B-spline coefficients that are used in an atlas-model-based segmentation to extract cochlea scalae and the relative measurements of the input image. The image which has segmentation is aligned to the input image to obtain the non-rigid transformation. After that the segmentation of the first image, in addition to point-models are transformed to the input image. The detailed transformed segmentation provides the scala volume size. Using the transformed point-models, the A-value, the central scala lengths, the lateral and the organ of corti scala tympani lengths are computed. The methods have been tested using clinical 3D images of total 67 patients: from Germany (41 patients) and Egypt (26 patients). The atients are of different ages and gender. The number of images used in the experiments is 217, which are multi-modal 3D clinical images from CT, CBCT, and MRI scanners. The proposed methods are compared to the state of the arts ptimizers related medical image registration methods e.g. fast adaptive stochastic gradient descent (FASGD) and efficient preconditioned tochastic gradient descent (EPSGD). The comparison used the root mean squared distance (RMSE) between the ground truth landmarks and the resulted landmarks. The landmarks are located manually by two experts to represent the round window and the top of the cochlea. After obtaining the transformation using ACIR, the landmarks of the moving image are transformed using the resulted transformation and RMSE of the transformed landmarks, and at the same time the fixed image landmarks are computed. I also used the active length of the cochlea implant electrodes to compute the error aroused by the image artifact, and I found out an error ranged from 0.5 mm to 1.12 mm. ACIR method’s RMSE average was 0.36 mm with a standard deviation (SD) of 0.17 mm. The total time average required for registration of an image pair using ACIR was 4.62 seconds with SD of 1.19 seconds. All experiments are repeated 3 times for justifications. Comparing the RMSE of ACIR2017 and ACIR2020 using paired T-test shows no significant difference (p-value = 0.17). The total RMSE average of ACA method was 0.61 mm with a SD of 0.22 mm. The total time average required for analysing an image was 5.21 seconds with SD of 0.93 seconds. The statistical tests show that there is no difference between the results from automatic A-value method and the manual A-value method (p-value = 0.42). There is no difference also between length’s measurements of the left and the right ear sides (p-value > 0.16). Comparing the results from German and Egypt dataset shows there is no difference when using manual or automatic A-value methods (p-value > 0.20). However, there is a significant difference when using ACA2000 method between the German and the Egyptian results (p-value < 0.001). The average time to obtain the segmentation and all measurements was 5.21 second per image. The cochlea scala tympani volume size ranged from 38.98 mm3 to 57.67 mm3 . The combined scala media and scala vestibuli volume size ranged from 34.98 mm 3 to 49.3 mm 3 . The overall volume size of the cochlea should range from 73.96 mm 3 to 106.97 mm 3 . The lateral wall length of scala tympani ranged from 42.93 mm to 47.19 mm. The organ-of-Corti length of scala tympani ranged from 31.11 mm to 34.08 mm. Using the A-value method, the lateral length of scala tympani ranged from 36.69 mm to 45.91 mm. The organ-of-Corti length of scala tympani ranged from 29.12 mm to 39.05 mm. The length from ACA2020 method can be visualised and has a well-defined endpoints. The ACA2020 method works on different modalities and different images despite the noise level or the resolution. In the other hand, the A-value method works neither on MRI nor noisy images. Hence, ACA2020 method may provide more reliable and accurate measurement than the A-value method. The source-code and the datasets are made publicly available to help reproduction and validation of my result.
On the recognition of human activities and the evaluation of its imitation by robotic systems
(2023)
This thesis addresses the problem of action recognition through the analysis of human motion and the benchmarking of its imitation by robotic systems.
For our action recognition related approaches, we focus on presenting approaches that generalize well across different sensor modalities. We transform multivariate signal streams from various sensors to a common image representation. The action recognition problem on sequential multivariate signal streams can then be reduced to an image classification task for which we utilize recent advances in machine learning. We demonstrate the broad applicability of our approaches formulated as a supervised classification task for action recognition, a semi-supervised classification task for one-shot action recognition, modality fusion and temporal action segmentation.
For action classification, we use an EfficientNet Convolutional Neural Network (CNN) model to classify the image representations of various data modalities. Further, we present approaches for filtering and the fusion of various modalities on a representation level. We extend the approach to be applicable for semi-supervised classification and train a metric-learning model that encodes action similarity. During training, the encoder optimizes the distances in embedding space for self-, positive- and negative-pair similarities. The resulting encoder allows estimating action similarity by calculating distances in embedding space. At training time, no action classes from the test set are used.
Graph Convolutional Network (GCN) generalized the concept of CNNs to non-Euclidean data structures and showed great success for action recognition directly operating on spatio-temporal sequences like skeleton sequences. GCNs have recently shown state-of-the-art performance for skeleton-based action recognition but are currently widely neglected as the foundation for the fusion of various sensor modalities. We propose incorporating additional modalities, like inertial measurements or RGB features, into a skeleton-graph, by proposing fusion on two different dimensionality levels. On a channel dimension, modalities are fused by introducing additional node attributes. On a spatial dimension, additional nodes are incorporated into the skeleton-graph.
Transformer models showed excellent performance in the analysis of sequential data. We formulate the temporal action segmentation task as an object detection task and use a detection transformer model on our proposed motion image representations. Experiments for our action recognition related approaches are executed on large-scale publicly available datasets. Our approaches for action recognition for various modalities, action recognition by fusion of various modalities, and one-shot action recognition demonstrate state-of-the-art results on some datasets.
Finally, we present a hybrid imitation learning benchmark. The benchmark consists of a dataset, metrics, and a simulator integration. The dataset contains RGB-D image sequences of humans performing movements and executing manipulation tasks, as well as the corresponding ground truth. The RGB-D camera is calibrated against a motion-capturing system, and the resulting sequences serve as input for imitation learning approaches. The resulting policy is then executed in the simulated environment on different robots. We propose two metrics to assess the quality of the imitation. The trajectory metric gives insights into how close the execution was to the demonstration. The effect metric describes how close the final state was reached according to the demonstration. The Simitate benchmark can improve the comparability of imitation learning approaches.
In dieser Arbeit wurde untersucht, wie sich das bestehende Modell der Kabelsimulation verbessern lässt. Hierfür wurde zunächst analysiert, welches die Einflussfaktoren auf eine Simulation sind. Des Weiteren wurde der Einfluss der Rand- und Nebenbedingungen auf die Genauigkeit der Verlaufssimulation untersucht.
Die Raytracing-Beschleunigung durch dedizierte Datenstrukturen ist schon lange ein wichtiges Thema der Computergrafik. Im Allgemeinen werden dafür zwei unterschiedliche Ansätze vorgeschlagen: räumliche und richtungsbezogene Beschleunigungsstrukturen. Die vorliegende Arbeit stellt einen innovativen kombinierten Ansatz dieser beiden Bereiche vor, welcher weitere Beschleunigung der Strahlenverfolgung ermöglicht. Dazu werden moderne räumliche Datenstrukturen als Basisstrukturen verwendet und um vorberechnete gerichtete Sichtbarkeitsinformationen auf Basis von Schächten innerhalb einer originellen Struktur, dem Line Space, ergänzt.
Im Laufe der Arbeit werden neuartige Ansätze für die vorberechneten Sichtbarkeitsinformationen vorgeschlagen: ein binärer Wert, der angibt, ob ein Schacht leer oder gefüllt ist, sowie ein einzelner Vertreter, der als repräsentativer Kandidat die tatsächliche Oberfläche approximiert. Es wird gezeigt, wie der binäre Wert nachweislich in einer einfachen, aber effektiven Leerraumüberspringungs-Technik (Empty Space Skipping) genutzt wird, welche unabhängig von der tatsächlich verwendeten räumlichen Basisdatenstruktur einen Leistungsgewinn beim Raytracing von bis zu 40% ermöglicht. Darüber hinaus wird gezeigt, dass diese binären Sichtbarkeitsinformationen eine schnelle Technik zur Berechnung von weichen Schatten und Umgebungsverdeckung auf der Grundlage von Blockerapproximationen ergeben. Obwohl die Ergebnisse einen gewissen Ungenauigkeitsfehler enthalten, welcher auch dargestellt und diskutiert wird, zeigt sich, dass eine weitere Traversierungsbeschleunigung von bis zu 300% gegenüber der Basisstruktur erreicht wird. Als Erweiterung zu diesem Ansatz wird die repräsentative Kandidatenvorberechnung demonstriert, welche verwendet wird, um die indirekte Lichtberechnung durch die Integration von kaum wahrnehmbaren Bildfehlern signifikant zu beschleunigen. Schließlich werden Techniken vorgeschlagen und bewertet, die auf zweistufigen Strukturen und einer Nutzungsheuristik basieren. Diese reduzieren den Speicherverbrauch und die Approximationsfehler bei Aufrechterhaltung des Geschwindigkeitsgewinns und ermöglichen zusätzlich weitere Möglichkeiten mit Objektinstanziierungen und starren Transformationen.
Alle Beschleunigungs- und Speicherwerte sowie die Näherungsfehler werden gemessen, dargestellt und diskutiert. Insgesamt zeigt sich, dass durch den Line Space eine deutliche Erhöhung der Raytracing Leistung auf Kosten eines höheren Speicherverbrauchs und möglicher Annäherungsfehler erreicht wird. Die vorgestellten Ergebnisse zeigen damit die Leistungsfähigkeit des kombinierten Ansatzes und eröffnen weitere Möglichkeiten für zukünftige Arbeiten.
Typischerweise erweitern Augmented Reality (AR)-Anwendungen die Sicht des Benutzers auf die reale Welt um virtuelle Objekte.
In den letzten Jahren hat AR zunehmend an Popularität und Aufmerksamkeit gewonnen. Dies hat zu Verbesserungen der benötigten Technologien geführt. AR ist dadurch für fast jeden zugänglich geworden.
Forscher sind dem Ziel einer glaubwürdigen AR, in der reale und virtuelle Welten nahtlos miteinander verbunden sind, einen großen Schritt näher gekommen. Sie konzentrieren sich hauptsächlich auf Themen wie Tracking, Anzeige-Technologien und Benutzerinteraktion und schenken der visuellen und physischen Kohärenz bei der Kombination realer und virtueller Objekte wenig Aufmerksamkeit. Beispielsweise sollen virtuelle Objekte nicht nur auf die Eingaben des Benutzers reagieren, sondern auch mit realen Objekten interagieren. Generell wird AR glaubwürdiger und realistischer, wenn virtuelle Objekte fixiert oder verankert in der realen Szene erscheinen, sich nicht von der realen Szene unterscheiden und auf Veränderungen dieser Szene reagieren.
Diese Arbeit untersucht drei Herausforderungen im Bereich Maschinelles Sehen um dem Ziel einer glaubwürdig kombinierten Welt näher zu kommen, in der virtuelle Objekte wie reale erscheinen und sich ebenso verhalten.
Diese Dissertation konzentriert sich als erstes auf das bekannte Tracking- und Registrierungsproblem. Hierzu wird die Herausforderung von Tracking und Registrierung diskutiert und ein Ansatz vorgestellt, um die Position und den Blickpunkt des Benutzers zu schätzen, so dass virtuelle Objekte in der realen Welt fest verankert erscheinen. Linienmodelle, die dem Erscheinungsbild entsprechen und nur für Trackingzwecke relevante Kanten beinhalten, ermöglichen eine absolute Registrierung in der realen Welt und ein robustes Tracking. Einerseits ist es nicht notwendig, viel Zeit in die manuelle Erstellung geeigneter Modelle zu investieren, andererseits ist das Tracking in der Lage mit Änderungen innerhalb des zu verfolgenden Objekts oder Szene umzugehen. Versuche haben gezeigt, dass die Verwendung von solchen Linienmodellen die Robustheit, Genauigkeit und Re-initialisierungsgeschwindigkeit des Tracking-Prozesses verbessert haben.
Zweitens beschäftigt sich diese Dissertation mit dem Thema der Oberflächenrekonstruk\-tion einer realen Umgebung und präsentiert einen Algorithmus zur Optimierung einer laufenden Oberflächenrekonstruktion. Vollständige 3D-Oberflächenrekonstruktionen einer Szene
eröffnen neue Möglichkeiten um realistischere AR-Anwendungen zu erstellen. Verschiedene Interaktionen zwischen realen und virtuellen Objekten, wie Kollisionen und Verdeckungen, können physikalisch korrekt behandelt werden. Während sich die bisherigen Methoden darauf konzentrierten die Oberflächenrekonstruktionen nach einem Aufnahmeschritt zu verbessern, wird die Rekonstruktion während der Aufnahme erweitert, Löcher werden geschlossen und Rauschen wird reduziert. Um eine unbekannte Umgebung zu erkunden muss der Benutzer keine Vorbereitungen treffen. Das Scannen der Szene oder eine vorhergehende Auseinandersetzung mit der zugrundeliegenden Technologie ist somit nicht notwendig.
In Experimenten lieferte der Ansatz realistische Ergebnisse, bei denen bekannte Oberflächen für verschiedene Oberflächentypen erweitert und Löcher plausibel gefüllt wurden.
Anschließend konzentriert sich diese Dissertation auf die Behandlung von realistischen Verdeckungen zwischen realer und virtueller Welt. Hierzu wird die Herausforderung der Verdeckung als Alpha Matting Problem formuliert. Die vorgestellte Methode überwindet die Grenzen moderner Methoden, indem ein Überblendungskoeffizienten pro Pixel der gerenderten virtuellen Szene schätzt wird, anstatt nur deren Sichtbarkeit zu berechnen. In mehreren Experimenten und Vergleichen mit anderen Methoden hat sich die Verdeckungsbehandlung durch Alpha Matting als robust erwiesen und kann mit Daten, die durch preiswerte Sensoren aufgenommen wurden, umgehen. Hinsichtlich der Qualität, des Realismus und der praktischen Anwendbarkeit übertrifft die Methode die Ergebnisse von bisherigen Ansätzen.
Des Weiteren kann die Methode mit verrauschten Tiefendaten umgehen und liefert realistische Ergebnisse in Regionen, in denen Vorder- und Hintergrund nicht strikt voneinander trennbar sind (z.B. bei Objekten mit einer undeutlichen Kontur oder durch Bewegungsunschärfe).
Im Kontext der Erweiterten Realität versteht man unter Tracking Methoden zur Bestimmung von Position und Orientierung (Pose) eines Betrachters, die es ermöglichen, grafische Informationen mittels verschiedenster Displaytechniken lagerichtig in dessen Sichtfeld einzublenden. Die präzisesten Tracking-Ergebnisse liefern Methoden der Bildverarbeitung, welche in der Regel nur die Pixel des Kamerabildes zur Informationsgewinnung heranziehen. Der Bildentstehungsprozess wird bei diesen Verfahren jedoch nur bedingt oder sehr vereinfacht miteinbezogen. Bei modellbasierten Verfahren hingegen, werden auf Basis von 3D-Modelldaten Merkmale identifiziert, ihre Entsprechungen im Kamerabild gefunden und aus diesen Merkmalskorrespondenzen die Kamerapose berechnet. Einen interessanten Ansatz bilden die Strategien der Analyse-durch-Synthese, welche das Modellwissen um Informationen aus der computergrafischen Bildsynthese und weitere Umgebungsvariablen ergänzen.
Im Rahmen dieser Arbeit wird unter Anwendung der Analyse-durch-Synthese untersucht, wie die Informationen aus dem Modell, dem Renderingprozess und der Umgebung in die einzelnen Komponenten des Trackingsystems einfließen können. Das Ziel ist es, das Tracking, insbesondere die Merkmalssynthese und Korrespondenzfindung, zu verbessern. Im Vordergrund steht dabei die Gewinnung von visuell eindeutigen Merkmalen, die anhand des Wissens über topologische Informationen, Beleuchtung oder perspektivische Darstellung hinsichtlich ihrer Eignung für stabiles Tracking der Kamerapose vorhergesagt und bewertet werden können.