54 Informatik
Filtern
Dokumenttyp
- Masterarbeit (14)
- Bachelorarbeit (11)
- Dissertation (7)
Schlagworte
- virtual reality (2)
- Action Recognition (1)
- Action Segmentation (1)
- Analysis of social platform (1)
- Artificial Intelligence (1)
- Astrophysik (1)
- Augmented Reality (1)
- CCRDMT (1)
- Computergrafik (1)
- Computervisualistik (1)
On the recognition of human activities and the evaluation of its imitation by robotic systems
(2023)
This thesis addresses the problem of action recognition through the analysis of human motion and the benchmarking of its imitation by robotic systems.
For our action recognition related approaches, we focus on presenting approaches that generalize well across different sensor modalities. We transform multivariate signal streams from various sensors to a common image representation. The action recognition problem on sequential multivariate signal streams can then be reduced to an image classification task for which we utilize recent advances in machine learning. We demonstrate the broad applicability of our approaches formulated as a supervised classification task for action recognition, a semi-supervised classification task for one-shot action recognition, modality fusion and temporal action segmentation.
For action classification, we use an EfficientNet Convolutional Neural Network (CNN) model to classify the image representations of various data modalities. Further, we present approaches for filtering and the fusion of various modalities on a representation level. We extend the approach to be applicable for semi-supervised classification and train a metric-learning model that encodes action similarity. During training, the encoder optimizes the distances in embedding space for self-, positive- and negative-pair similarities. The resulting encoder allows estimating action similarity by calculating distances in embedding space. At training time, no action classes from the test set are used.
Graph Convolutional Network (GCN) generalized the concept of CNNs to non-Euclidean data structures and showed great success for action recognition directly operating on spatio-temporal sequences like skeleton sequences. GCNs have recently shown state-of-the-art performance for skeleton-based action recognition but are currently widely neglected as the foundation for the fusion of various sensor modalities. We propose incorporating additional modalities, like inertial measurements or RGB features, into a skeleton-graph, by proposing fusion on two different dimensionality levels. On a channel dimension, modalities are fused by introducing additional node attributes. On a spatial dimension, additional nodes are incorporated into the skeleton-graph.
Transformer models showed excellent performance in the analysis of sequential data. We formulate the temporal action segmentation task as an object detection task and use a detection transformer model on our proposed motion image representations. Experiments for our action recognition related approaches are executed on large-scale publicly available datasets. Our approaches for action recognition for various modalities, action recognition by fusion of various modalities, and one-shot action recognition demonstrate state-of-the-art results on some datasets.
Finally, we present a hybrid imitation learning benchmark. The benchmark consists of a dataset, metrics, and a simulator integration. The dataset contains RGB-D image sequences of humans performing movements and executing manipulation tasks, as well as the corresponding ground truth. The RGB-D camera is calibrated against a motion-capturing system, and the resulting sequences serve as input for imitation learning approaches. The resulting policy is then executed in the simulated environment on different robots. We propose two metrics to assess the quality of the imitation. The trajectory metric gives insights into how close the execution was to the demonstration. The effect metric describes how close the final state was reached according to the demonstration. The Simitate benchmark can improve the comparability of imitation learning approaches.
Diese Bachelorarbeit erforscht eine Methode zur 3D-Objekterkennung und Posenschätzung, basierend auf dem Punkte-Paare-Eigenschaften-Verfahren (PPE) von Drost et. al. [Dro+10]. Die Methoden der Posenschätzung haben sich in den letzten Jahre zwar deutlich verbessert, stellen jedoch weiterhin ein zentrales Problem im Bereich der Computervisualistik dar. Im Rahmen dieser Arbeit wurde ein Programm implementiert, welches Punktewolkenszenen als Ausgangspunkt erhält und daraus eine Objekterkennung und Posenschätzung durchführt. Das Programm deckt alle Schritte eines Objekterkennungsprogramm ab, indem es 3D-Modelle von Objekten verarbeitet, um deren PPE zu extrahieren. Diese Eigenschaften werden gruppiert und in einer Tabelle gespeichert. Anhand des Auswahlverfahrens, bei dem die Übereinstimmung der Eigenschaften überprüft wird, können potenzielle Posen des Objekts ermittelt werden. Die Posen mit der größten Übereinstimmung werden miteinander verglichen, um ähnliche Posen zu gruppieren. Die Gruppen mit der höchsten Übereinstimmung werden erneut überprüft, sodass am Ende nur eine Pose ausgewählt wird. Das Programm wurde anhand von Real– und Simulationsdaten Daten getestet. Die erhaltenen Ergebnisse wurden anschließend analysiert und evaluiert.
Der Industriestandard Decision Model and Notation (DMN) ermöglicht seit 2015 eine neue Art der Formalisierung von Geschäftsregeln. Hier werden Regeln in sogenannten Entscheidungstabellen modelliert, die durch Eingabespalten und Ausgabespalten definiert sind. Zudem sind Entscheidungen in graphartigen Strukturen angeordnet (DRD Ebene), die Abhängigkeiten unter diesen erzeugen. Nun können, mit gegebenen Input, Entscheidungen von geeigneten Systemen angefragt werden. Aktivierte Regeln produzieren dabei einen Output für die zukünftige Verwendung. Jedoch erzeugen Fehler während der Modellierung fehlerhafte Modelle, die sowohl in den Entscheidungstabellen als auch auf der DRD Ebene auftreten können. Nach der Design Science Research Methodology fokus\-siert diese Arbeit eine Implementierung eines Verifikationsprototyps für die Erkennung und Lösung dieser Fehler während der Modellierungsphase. Die vorgestellten Grundlagen liefern die notwendigen theoretischen Grundlagen für die Entwicklung des Tools. Diese Arbeit stellt außerdem die Architektur des Werkzeugs und die implementierten Verifikationsfähigkeiten vor. Abschließend wird der erstellte Prototyp evaluiert.
On-screen interactive presentations have got immense popularity in the domain of attentive interfaces recently. These attentive screens adapt their behavior according to the user's visual attention. This thesis aims to introduce an application that would enable these attentive interfaces to change their behavior not just according to the gaze data but also facial features and expressions. The modern era requires new ways of communications and publications for advertisement. These ads need to be more specific according to people's interests, age, and gender. When advertising, it's important to get a reaction from the user but not every user is interested in providing feedback. In such a context more, advance techniques are required that would collect user's feedback effortlessly. The main problem this thesis intends to resolve is, to apply advanced techniques of gaze and face recognition to collect data about user's reactions towards different ads being played on interactive screens. We aim to create an application that enables attentive screens to detect a person's facial features, expressions, and eye gaze. With eye gaze data we can determine the interests and with facial features, age and gender can be specified. All this information will help in optimizing the advertisements.
The distributed setting of RDF stores in the cloud poses many challenges. One such challenge is how the data placement on the compute nodes can be optimized to improve the query performance. To address this challenge, several evaluations in the literature have investigated the effects of existing data placement strategies on the query performance. A common drawback in theses evaluations is that it is unclear whether the observed behaviors were caused by the data placement strategies (if different RDF stores were evaluated as a whole) or reflect the behavior in distributed RDF stores (if cloud processing frameworks like Hadoop MapReduce are used for the evaluation). To overcome these limitations, this thesis develops a novel benchmarking methodology for data placement strategies that uses a data-placement-strategy-independent distributed RDF store to analyze the effect of the data placement strategies on query performance.
With this evaluation methodology the frequently used data placement strategies have been evaluated. This evaluation challenged the commonly held belief that data placement strategies that emphasize local computation, such as minimal edge-cut cover, lead to faster query executions. The results indicate that queries with a high workload may be executed faster on hash-based data placement strategies than on, e.g., minimal edge-cut covers. The analysis of the additional measurements indicates that vertical parallelization (i.e., a well-distributed workload) may be more important than horizontal containment (i.e., minimal data transport) for efficient query processing.
Moreover, to find a data placement strategy with a high vertical parallelization, the thesis tests the hypothesis that collocating small connected triple sets on the same compute node while balancing the amount of triples stored on the different compute nodes leads to a high vertical parallelization. Specifically, the thesis proposes two such data placement strategies. The first strategy called overpartitioned minimal edge-cut cover was found in the literature and the second strategy is the newly developed molecule hash cover. The evaluation revealed a balanced query workload and a high horizontal containment, which lead to a high vertical parallelization. As a result these strategies showed a better query performance than the frequently used data placement strategies.
Absicherung der analytischen Interpretation von Geolokalisierungsdaten in der Mobilfunkforensik
(2019)
Zusammenfassung
Lokalisierungsdienste gehören mit zu den wesentlichen Merkmalen moderner mobiler Endgeräte. Neben der Tatsache, dass Standortdaten zur Rekonstruktion eines Bewegungsprofils genutzt werden können, steigt der Anteil der zu untersuchenden Geräten mit entsprechender Ausstattung im Rahmen von polizeilichen Ermittlungen enorm an.
Motivation
Ziel dieser Arbeit ist es, tiefergehendes Wissen um Geolokalisierungsfragen im Bereich der Mobilfunkforensik aufzubauen, um die in den Geräten gespeicherten Standortdaten forensisch auswertbar zu machen. Darüber hinaus sollen Werkzeuge entwickelt werden, die die spezifischen Bedürfnisse der Strafverfolgungsbehörden berücksichtigen.
Probleme
Die Prozesse der Geolokalisierung in Smartphones sind komplex. Um seine Position zu lokalisieren zu können, müssen verschiedene Referenzsysteme wie z. B. GPS, Funkzellen oder WLAN-hotspots in unterschiedlicher Art und Weise verknüpft werden. Der gesamte Lokalisierungsmechanismus ist geistiges Eigentum der Hersteller und nicht mit dem Ziel forensischer Auswertungen entstanden. Ein grundlegendes Problem der forensischen Untersuchung ist, dass hauptsächlich Referenzpunkte anstelle reeller Gerätepositionen gespeichert werden. Darüber hinaus bestehen die Geolokalisierungsinformationen aus Bits und Bytes bzw. numerischen Werten, die zuverlässig an ihre Bedeutung geknüpft werden müssen. Die gewonnenen Lokalisierungsdaten sind ferner lückenhaft und stellen lediglich einen Teil des gesamten Prozesses bzw. der Gerätenutzung dar. Dieser Datenverlust muss bestimmt werden, um eine zuverlässige Aussage hinsichtlich der Vollständigkeit, Integrität und Genauigkeit der Daten zu ermöglichen. Zu guter Letzt muss, wie für jedes Beweismittel einer kriminalistischen Untersuchung, gesichert sein, dass eine Manipulation der Daten bzw. Fehler bei der Positionsschätzung des Gerätes keinen nachteiligen Einfluss auf die Auswertung haben.
Forschungsfragen
Im Zusammenhang mit Lokalisierungsdiensten in modernen Smartphones kommt es im forensischen Alltag immer wieder zu ähnlichen Fragestellungen:
* Lassen sich Standorte zu jedem beliebigen Zeitpunkt ermitteln?
* Wie genau sind die ermittelten Geodaten des Smartphones?
* Werden Standortdaten aus Smartphones vor Gericht Bestand haben?
Forschungsansatz
Zur besseren Nachvollziehbarkeit der Prozesse in modernen Smartphones und um die Qualität und Zuverlässigkeit von Geolokalisierungsdaten zu bewerten, sollen Standortdaten verschiedener Plattformen sowohl theoretisch analysiert als auch praktisch während der Lokalisierung betrachtet werden. Der Zusammenhang zwischen Daten und Entstehungskontext wird mithilfe experimenteller Live-Untersuchungen sowie Desktop- und nativen Anwendungen auf den mobilen Endgeräten untersucht werden.
Ergebnis
Im Rahmen dieser Arbeit konnten mithilfe der entwickelten Werkzeuge die forensische Untersuchung verbessert sowie die analytische Interpretation von Geodaten von- bzw. direkt auf modernen Smartphones durchgeführt werden. Dabei hat sich ein generisches Modell zur Beurteilung der Qualität von Standortdaten herauskristallisiert, das sich allgemein auf die ermittelten Geodaten aus mobilen Endgeräten anwenden lässt.
Commonsense reasoning can be seen as a process of identifying dependencies amongst events and actions. Understanding the circumstances surrounding these events requires background knowledge with sufficient breadth to cover a wide variety of domains. In the recent decades, there has been a lot of work in extracting commonsense knowledge, a number of these projects provide their collected data as semantic networks such as ConceptNet and CausalNet. In this thesis, we attempt to undertake the Choice Of Plausible Alternatives (COPA) challenge, a problem set with 1000 questions written in multiple-choice format with a premise and two alternative choices for each question. Our approach differs from previous work by using shortest paths between concepts in a causal graph with the edge weight as causality metric. We use CausalNet as primary network and implement a few design choices to explore the strengths and drawbacks of this approach, and propose an extension using ConceptNet by leveraging its commonsense knowledge base.
Diese Bachelorarbeit beschäftigt sich mit dem Entwurf und der Implementation einer virtuellen Realitätserfahrung. Ziel ist es, zwei Fragen zu beantworten: Ist es möglich, eine immersive virtuelle Anwendung zu erschaffen, die hauptsächlich Impulse und Trigger benutzt, um Angst und Schrecken bei den Benutzern zu erzeugen? Zweitens, ist diese Immersion ausreichend, die Benutzer so zu illusionieren, dass sie die virtuelle Welt für die Reale halten. Zur Erschaffung dieser Erfahrung wurde die Programmierumgebung Unity3D sowie Visual Studios 2017 verwendet. Um festzustellen, ob diese VR-Anwendung tatsächlich immersiv für den Anwender ist, wurde ein Experiment mit sieben Probanden durchgeführt. Nach der Spieltestung wurden die Probanden zu Ihren Erfahrungen mittels eines Fragebogens befragt. Es konnte dadruch gezeigt werden, dass diese Anwendungen Tendenzen zur Immersion aufweisen. Jedoch waren sich die Benutzer der Situation, in der sie sich befanden, stets bewusst. Daraus lässt sich schlussfolgern, dass die Immersion nicht stark genug war, um die Probanden bezüglich der virtuellen und realen Welt zu täuschen.
Mit dem Erscheinen moderner Virtual Reality (VR) Headsets auf dem Verbrauchermarkt, gab es den bisher größten Aufschwung in der Geschichte der VR Technologie. Damit einhergehend rücken aber auch die Problematiken aktueller VR Hardware immer mehr in den Vordergrund. Insbesondere die Steuerung in VR war schon immer ein komplexes Thema.
Eine mögliche Lösung bietet die Leap Motion: Ein Hand-Tracking Gerät, welches ursprünglich für den Desktop-Einsatz entwickelt wurde, aber mit dem letzten größeren Softwareupdate an üblichen VR Headsets angebracht werden kann. Dieses Gerät ermöglicht ein sehr genaues Tracking beider Hände und aller Finger. Damit ist es möglich, diese vollständig in der VR Welt zu replizieren und zur Steuerung zu verwenden.
Ziel dieser Arbeit ist es, virtuelle Benutzeroberflächen zu entwerfen, die mit der Leap Motion bedient werden können. Dies soll eine natürliche Interaktion zwischen dem Benutzer und der VR-Umgebung ermöglichen. Danach werden mit Hilfe einer Demoanwendung Probanden-Tests durchgeführt, um ihre Leistung zu bewerten und mit herkömmlichen VR-Reglern zu vergleichen.