54 Informatik
Filtern
Dokumenttyp
- Bachelorarbeit (8)
- Masterarbeit (6)
- Dissertation (3)
Schlagworte
- virtual reality (2)
- Action Recognition (1)
- Action Segmentation (1)
- Astrophysik (1)
- Augmented Reality (1)
- Computergrafik (1)
- Computervisualistik (1)
- Datenschutz (1)
- Distanzfeld (1)
- Extended Reality (1)
Institut
- Institut für Computervisualistik (17) (entfernen)
On the recognition of human activities and the evaluation of its imitation by robotic systems
(2023)
This thesis addresses the problem of action recognition through the analysis of human motion and the benchmarking of its imitation by robotic systems.
For our action recognition related approaches, we focus on presenting approaches that generalize well across different sensor modalities. We transform multivariate signal streams from various sensors to a common image representation. The action recognition problem on sequential multivariate signal streams can then be reduced to an image classification task for which we utilize recent advances in machine learning. We demonstrate the broad applicability of our approaches formulated as a supervised classification task for action recognition, a semi-supervised classification task for one-shot action recognition, modality fusion and temporal action segmentation.
For action classification, we use an EfficientNet Convolutional Neural Network (CNN) model to classify the image representations of various data modalities. Further, we present approaches for filtering and the fusion of various modalities on a representation level. We extend the approach to be applicable for semi-supervised classification and train a metric-learning model that encodes action similarity. During training, the encoder optimizes the distances in embedding space for self-, positive- and negative-pair similarities. The resulting encoder allows estimating action similarity by calculating distances in embedding space. At training time, no action classes from the test set are used.
Graph Convolutional Network (GCN) generalized the concept of CNNs to non-Euclidean data structures and showed great success for action recognition directly operating on spatio-temporal sequences like skeleton sequences. GCNs have recently shown state-of-the-art performance for skeleton-based action recognition but are currently widely neglected as the foundation for the fusion of various sensor modalities. We propose incorporating additional modalities, like inertial measurements or RGB features, into a skeleton-graph, by proposing fusion on two different dimensionality levels. On a channel dimension, modalities are fused by introducing additional node attributes. On a spatial dimension, additional nodes are incorporated into the skeleton-graph.
Transformer models showed excellent performance in the analysis of sequential data. We formulate the temporal action segmentation task as an object detection task and use a detection transformer model on our proposed motion image representations. Experiments for our action recognition related approaches are executed on large-scale publicly available datasets. Our approaches for action recognition for various modalities, action recognition by fusion of various modalities, and one-shot action recognition demonstrate state-of-the-art results on some datasets.
Finally, we present a hybrid imitation learning benchmark. The benchmark consists of a dataset, metrics, and a simulator integration. The dataset contains RGB-D image sequences of humans performing movements and executing manipulation tasks, as well as the corresponding ground truth. The RGB-D camera is calibrated against a motion-capturing system, and the resulting sequences serve as input for imitation learning approaches. The resulting policy is then executed in the simulated environment on different robots. We propose two metrics to assess the quality of the imitation. The trajectory metric gives insights into how close the execution was to the demonstration. The effect metric describes how close the final state was reached according to the demonstration. The Simitate benchmark can improve the comparability of imitation learning approaches.
Diese Bachelorarbeit erforscht eine Methode zur 3D-Objekterkennung und Posenschätzung, basierend auf dem Punkte-Paare-Eigenschaften-Verfahren (PPE) von Drost et. al. [Dro+10]. Die Methoden der Posenschätzung haben sich in den letzten Jahre zwar deutlich verbessert, stellen jedoch weiterhin ein zentrales Problem im Bereich der Computervisualistik dar. Im Rahmen dieser Arbeit wurde ein Programm implementiert, welches Punktewolkenszenen als Ausgangspunkt erhält und daraus eine Objekterkennung und Posenschätzung durchführt. Das Programm deckt alle Schritte eines Objekterkennungsprogramm ab, indem es 3D-Modelle von Objekten verarbeitet, um deren PPE zu extrahieren. Diese Eigenschaften werden gruppiert und in einer Tabelle gespeichert. Anhand des Auswahlverfahrens, bei dem die Übereinstimmung der Eigenschaften überprüft wird, können potenzielle Posen des Objekts ermittelt werden. Die Posen mit der größten Übereinstimmung werden miteinander verglichen, um ähnliche Posen zu gruppieren. Die Gruppen mit der höchsten Übereinstimmung werden erneut überprüft, sodass am Ende nur eine Pose ausgewählt wird. Das Programm wurde anhand von Real– und Simulationsdaten Daten getestet. Die erhaltenen Ergebnisse wurden anschließend analysiert und evaluiert.
Diese Bachelorarbeit beschäftigt sich mit dem Entwurf und der Implementation einer virtuellen Realitätserfahrung. Ziel ist es, zwei Fragen zu beantworten: Ist es möglich, eine immersive virtuelle Anwendung zu erschaffen, die hauptsächlich Impulse und Trigger benutzt, um Angst und Schrecken bei den Benutzern zu erzeugen? Zweitens, ist diese Immersion ausreichend, die Benutzer so zu illusionieren, dass sie die virtuelle Welt für die Reale halten. Zur Erschaffung dieser Erfahrung wurde die Programmierumgebung Unity3D sowie Visual Studios 2017 verwendet. Um festzustellen, ob diese VR-Anwendung tatsächlich immersiv für den Anwender ist, wurde ein Experiment mit sieben Probanden durchgeführt. Nach der Spieltestung wurden die Probanden zu Ihren Erfahrungen mittels eines Fragebogens befragt. Es konnte dadruch gezeigt werden, dass diese Anwendungen Tendenzen zur Immersion aufweisen. Jedoch waren sich die Benutzer der Situation, in der sie sich befanden, stets bewusst. Daraus lässt sich schlussfolgern, dass die Immersion nicht stark genug war, um die Probanden bezüglich der virtuellen und realen Welt zu täuschen.
Mit dem Erscheinen moderner Virtual Reality (VR) Headsets auf dem Verbrauchermarkt, gab es den bisher größten Aufschwung in der Geschichte der VR Technologie. Damit einhergehend rücken aber auch die Problematiken aktueller VR Hardware immer mehr in den Vordergrund. Insbesondere die Steuerung in VR war schon immer ein komplexes Thema.
Eine mögliche Lösung bietet die Leap Motion: Ein Hand-Tracking Gerät, welches ursprünglich für den Desktop-Einsatz entwickelt wurde, aber mit dem letzten größeren Softwareupdate an üblichen VR Headsets angebracht werden kann. Dieses Gerät ermöglicht ein sehr genaues Tracking beider Hände und aller Finger. Damit ist es möglich, diese vollständig in der VR Welt zu replizieren und zur Steuerung zu verwenden.
Ziel dieser Arbeit ist es, virtuelle Benutzeroberflächen zu entwerfen, die mit der Leap Motion bedient werden können. Dies soll eine natürliche Interaktion zwischen dem Benutzer und der VR-Umgebung ermöglichen. Danach werden mit Hilfe einer Demoanwendung Probanden-Tests durchgeführt, um ihre Leistung zu bewerten und mit herkömmlichen VR-Reglern zu vergleichen.
Diese Arbeit soll das von Dietz und Oppermann entwickelte Planspiel „Datenschutz 2.0“ an den heutigen Alltag der Schüler anpassen, die Benutzung in der Sekundarstufe II ermöglichen und die technischen und gesetzlichen Problematiken des Planspiels beheben. Das mit dem Planspiel aufgegriffene Thema Datenschutz ist im rheinland-pfälzischen Informatik-Lehrplan für die Sekundarstufe II verankert. Hier wird der Begriff Datenschutz in der Reihe „Datenerhebung unter dem Aspekt Datenschutz beurteilen“ genannt. Jedoch werden in dem Planspiel keine Daten erhoben, sondern die selbst hinterlassenen Datenspuren untersucht. Diese Form des Datenschutzes ist im Grundkurs in der vorgeschlagenen Reihe „Datensicherheit unter der Berücksichtigung kryptologischer Verfahren erklären und beachten“ unter dem Thema Kommunikation in Rechnernetzen zu finden. Im Leistungskurs steht die Datensicherheit in gleichbenannter Reihe und Thema und in der Reihe „Datenerhebung unter dem Aspekt Datenschutz beurteilen“ im Thema Wechselwirkung zwischen Informatiksysteme, Individuum und Gesellschaft.
Tracking ist ein zentraler Bestandteil vieler moderner technischer Anwendungen, insbesondere in den Bereichen autonome Systeme und Augmented Reality. Für Tracking gibt es viele unterschiedliche Ansätze. Ein erst seit kurzem verfolgter ist die Verwendung von Neuronalen Netzen. Im Rahmen dieser Masterarbeit wird eine eine Anwendung erstellt, welche für das Tracking ein Neuronales Netz verwendet. Dazu gehört ebenfalls die Erstellung von Trainingsdaten, sowie die Erstellung des Neuronalen Netzes und dessen Training.
Anschließend wird die Verwendung von Neuronalen Netzen für Tracking analysiert und ausgewertet. Hierunter fallen verschiedene Aspekte. Es wird für eine unterschiedliche Anzahl an Freiheitsgraden geprüft wie gut das Tracking funktioniert und wie viel Performance dieser Ansatz kostet. Des Weiteren wird die Menge der benötigten Trainingsdaten untersucht, der Einfluss der Architektur des Netzwerks und wie wichtig das Vorhandensein von Tiefendaten für die Funktion des Trackings ist. Dies soll einen Einblick ermöglichen wie relevant dieser Ansatz für den Einsatz in zukünftigen Produkten sein könnte.
Die Mitralklappe ist eine der vier Herzklappen des Menschen. Sie befindet sich in der linken Herzkammer und agiert als ein unidirektionales Ventil, welches den Blutfluss vom linken Atrium zum linken Ventrikel steuert. Eine funktionierende Mitralklappe verhindert den Rückfluss von Blut in den Lungenkreislauf, wodurch sie einen unverzichtbaren Anteil zu einem gesunden Herzkreislauf beiträgt. Pathologien der Mitralklappe können eine Reihe von Symptomen hervorrufen, welche in ihrer Schwere von Brustschmerzen und Ermüdung bis zum Lungenödem (dem Eindringen von Flüssigkeit in die Lunge) reichen können. Im schlimmsten Fall kann dieses zum Atemversagen führen.
Dysfunktionale Mitralklappen können mithilfe komplexer chirurgischer Eingriffe wiederhergestellt werden, welche in hohem Maße von intensiver Planung und präoperativer Analyse profitieren. Visualisierungstechniken eröffnen die Möglichkeit, solche Vorbereitungsprozesse zu unterstützen und können zudem einer postoperativen Evaluation dienlich sein. Die vorliegende Arbeit erweitert die Forschung in diesem Bereich. Sie stützt sich auf patientenspezifische Segmentierungen der Mitralklappe, wie sie am Deutschen Krebsforschungszentrum entwickelt werden. Solche Segmentierungen resultieren in 3D-Modellen der Mitralklappe. Der Kern dieser Arbeit wird sich mit der Konstruktion einer 2D-Ansicht dieser Modelle befassen. Die 2D-Visualisierung wird durch Methoden der globalen Parametrisierung erzeugt, welche es erlauben, bijektive Abbildungen zwischen einem planaren Parameterraum und Oberflächen in höheren Dimensionen zu erstellen.
Eine ebene Repräsentation der Mitralklappe ermöglicht Ärzten einen unmittelbaren Blick auf deren gesamte Oberfläche, analog zu einer Karte. Dies erlaubt die Begutachtung der Fläche und Form ohne die Notwendigkeit unterschiedlicher Blickwinkel. Teile der Klappe, die in der 3D-Ansicht von Geometrie verdeckt sind, werden in der 2D-Darstellung sichtbar.
Ein weiterer Beitrag dieser Arbeit ist die Untersuchung verschiedener Visualisierungen der 3D- und 2D-Mitralklappenrepräsentationen. Merkmale der Klappe können durch Assoziation mit spezifizierten Farbschemata hervorgehoben werden. So können zum Beispiel Pathologie-Indikatoren direkt vermittelt werden.
Qualität und Wirkungsgrad der vorgestellten Methoden wurden in einer Studie am Universitätsklinikum Heidelberg evaluiert.
Technologische Fortschritte auf dem Gebiet der integrierten Halbleitertechnik, die unter anderem auch zur gestiegenen Leistungsfähigkeit der Kamerasensoren beitragen, konzentrierten sich bisher primär auf die Schnelligkeit und das Auflösungsvermögen der Sensoren. Die sich ständig verändernde Entwicklung hat jedoch direkte Folgen auf das physikalische Verhalten einer Kamera und damit auch Konsequenzen für die erreichbare geometrische Genauigkeit einer photogrammetrischen 3D-Rekonstruktion. Letztere stand bisher nicht im Fokus der Forschung und ist eine Aufgabe, der sich diese Arbeit im Sinne der Photogrammetrie und Messtechnik stellt. Aktuelle Untersuchungen und Erfahrungen aus industriellen Projekten zeigen in diesem Zusammenhang, dass das geometrisch-physikalische Verhalten digitaler Kameras - für höchste photogrammetrische Ansprüche - noch nicht ausreichend modelliert ist. Direkte Aussagen zur erreichbaren Genauigkeit bei gegebener Hardware erweisen sich daher bislang als unzureichend. Ferner kommt es aufgrund der unpräzisen Modellierung zu Einbußen in der Zuverlässigkeit der erreichten Ergebnisse. Für den Entwickler präziser kamerabasierter Messverfahren folgt daraus, dass zu einer optimalen Schätzung der geometrischen Genauigkeit und damit auch vollständigen Ausschöpfung der Messkamera geeignete mathematische Modelle erforderlich sind, die das geometrisch physikalische Verhalten bestmöglich beschreiben. Diese Arbeit beschreibt, wie die erreichbare Genauigkeit einer Bündelblockausgleichung, schon a priori mithilfe des EMVA1288 Standards approximiert werden kann. Eine in diesem Zusammenhang wichtige Teilaufgabe ist die Schaffung einer optimalen Messanordnung. Hierzu gehören Untersuchungen der üblicherweise verwendeten Kalibrierkörper und die Beseitigung von systematischen Fehlern vor und nach der Bündelblockausgleichung. Zum Nachweis dieser Systematiken wird eine auf statistischem Lernen basierende Methode beschrieben und untersucht. Erst wenn alle genauigkeitsmindernden Einflüsse berücksichtigt sind, wird der Anteil des Sensors in den Messdaten sichtbar und damit auch mathematisch parametrisierbar. Die Beschreibung des Sensoreinflusses auf die erreichbare Genauigkeit der Bündelblockausgleichung erfolgt in drei Schritten. Der erste Schritt beschreibt den Zusammenhang zwischen ausgewählten EMVA1288-Kennzahlen und der Unsicherheit eines Grauwertes. Der zweite Schritt ist eine Modellierung dieser Grauwertunsicherheit als Zentrumsunsicherheit einer Zielmarke. Zur Beschreibung dieser Unsicherheit innerhalb der Bündelblockausgleichung wird ein stochastisches Modell, basierend auf dem EMVA1288-Standard, vorgeschlagen. Ausgehend vom Rauschen des Zielmarkenmittelpunktes wird im dritten Schritt die Unsicherheit im Objektraum beispielhaft mit Hilfe von physikalisch orientierten Simulationen approximiert. Die Wirkung der vorgeschlagenen Methoden wird anhand von Realkalibrierungen nachgewiesen. Abschließend erfolgt die Diskussion der vorgeschlagenen Methoden und erreichten Ergebnisse sowie ein Ausblick auf kommende Untersuchungen.
Das Ziel dieser Bachelorarbeit bestand darin, die Verbindung zwischen den Technologien Augmented und Virtual Reality zu veranschaulichen und ein sinnvolles Zusammenspiel der beiden Darstellungsformen zu kreieren. Hierfür wurde eine Anwendung im Bereich der Innenarchitektur implementiert, bei welcher man einen Raumplan mittels Augmented Reality intuitiv gestalten und sich anschließend einen realitätsnahen Eindruck des eingerichteten Zimmers mit einer Virtual Reality Simulation machen kann. Auf Basis des nötigen Grundwissens wurde ein Konzept für dieses Projekt ausgearbeitet und anschließend mit verschiedenen Entwicklungssystemen realisiert. Diese Implementierung wurde im Rahmen einer Evaluationsreihe getestet und darauffolgend optimiert. Das Ergebnis bestätigt die Annahme, dass sich Augmented und Virtual Reality mit ihren jeweiligen Stärken evident miteinander verbinden lassen. Diese Arbeit ist sowohl für Studierende im Bereich Informatik als auch für Interessenten an innovativen Lösungen relevant.