004 Datenverarbeitung; Informatik
Filtern
Erscheinungsjahr
Dokumenttyp
- Diplomarbeit (77)
- Studienarbeit (76)
- Bachelorarbeit (37)
- Masterarbeit (13)
- Dissertation (8)
- Ausgabe (Heft) zu einer Zeitschrift (8)
- Konferenzveröffentlichung (3)
Sprache
- Deutsch (195)
- Englisch (25)
- Mehrsprachig (2)
Schlagworte
- Bildverarbeitung (13)
- Robotik (10)
- Augmented Reality (8)
- Computergraphik (8)
- OpenGL (8)
- Programmierung (5)
- Shader (5)
- Volumendaten (5)
- Android (4)
- Computergrafik (4)
Institut
- Institut für Computervisualistik (222) (entfernen)
Leichte Sprache (LS) ist eine vereinfachte Varietät des Deutschen in der barrierefreie Texte für ein breites Spektrum von Menschen, einschließlich gering literalisierten Personen mit Lernschwierigkeiten, geistigen oder entwicklungsbedingten Behinderungen (IDD) und/oder komplexen Kommunikationsbedürfnissen (CCN), bereitgestellt werden. LS-Autor*innen sind i.d.R. der deutschen Standardsprache mächtig und gehören nicht der genannten Personengruppe an. Unser Ziel ist es, diese zu befähigen, selbst am schriftlichen Diskurs teilzunehmen. Hierfür bedarf es eines speziellen Schreibsystems, dessen linguistische Unterstützung und softwareergonomische Gestaltung den spezifischen Bedürfnissen der Zielgruppe gerecht wird. EasyTalk ist ein System basierend auf computerlinguistischer Verarbeitung natürlicher Sprache (NLP) für assistives Schreiben in einer erweiterten Variante von LS (ELS). Es stellt den Nutzenden ein personalisierbares Vokabular mit individualisierbaren Kommunikationssymbolen zur Verfügung und unterstützt sie entsprechend ihres persönlichen Fähigkeitslevels durch interaktive Benutzerführung beim Schreiben. Intuitive Formulierungen für linguistische Entscheidungen minimieren das erforderliche grammatikalische Wissen für die Erstellung korrekter und kohärenter komplexer Inhalte. Einfache Dialoge kommunizieren mit einem natürlichsprachlichen Paraphrasengenerator, der kontextsensitiv Vorschläge für Satzkomponenten und korrekt flektierte Wortformen bereitstellt. Außerdem regt EasyTalk die Nutzer*innen an, Textelemente hinzuzufügen, welche die Verständlichkeit des Textes für dessen Leserschaft fördern (z.B. Zeit- und Ortsangaben) und die Textkohärenz verbessern (z.B. explizite Diskurskonnektoren). Um das System auf die Bedürfnisse der Zielgruppe zuzuschneiden, folgte die Entwicklung von EasyTalk den Grundsätzen der menschzentrierten Gestaltung (UCD). Entsprechend wurde das System in iterativen Entwicklungszyklen ausgereift, kombiniert mit gezielten Evaluierungen bestimmter Aspekte durch Gruppen von Expert*innen aus den Bereichen CCN, LS und IT sowie L2-Lernende der deutschen Sprache. Eine Fallstudie, in welcher Mitglieder der Zielgruppe das freie Schreiben mit dem System testeten, bestätigte, dass Erwachsene mit geringen Lese-, Schreib- und Computerfähigkeiten mit IDD und/oder CCN mit EasyTalk eigene persönliche Texte in ELS verfassen können. Das positive Feedback aller Tests inspiriert Langzeitstudien mit EasyTalk und die Weiterentwicklung des prototypischen Systems, wie z.B. die Implementierung einer s.g. Schreibwerkstatt.
On the recognition of human activities and the evaluation of its imitation by robotic systems
(2023)
This thesis addresses the problem of action recognition through the analysis of human motion and the benchmarking of its imitation by robotic systems.
For our action recognition related approaches, we focus on presenting approaches that generalize well across different sensor modalities. We transform multivariate signal streams from various sensors to a common image representation. The action recognition problem on sequential multivariate signal streams can then be reduced to an image classification task for which we utilize recent advances in machine learning. We demonstrate the broad applicability of our approaches formulated as a supervised classification task for action recognition, a semi-supervised classification task for one-shot action recognition, modality fusion and temporal action segmentation.
For action classification, we use an EfficientNet Convolutional Neural Network (CNN) model to classify the image representations of various data modalities. Further, we present approaches for filtering and the fusion of various modalities on a representation level. We extend the approach to be applicable for semi-supervised classification and train a metric-learning model that encodes action similarity. During training, the encoder optimizes the distances in embedding space for self-, positive- and negative-pair similarities. The resulting encoder allows estimating action similarity by calculating distances in embedding space. At training time, no action classes from the test set are used.
Graph Convolutional Network (GCN) generalized the concept of CNNs to non-Euclidean data structures and showed great success for action recognition directly operating on spatio-temporal sequences like skeleton sequences. GCNs have recently shown state-of-the-art performance for skeleton-based action recognition but are currently widely neglected as the foundation for the fusion of various sensor modalities. We propose incorporating additional modalities, like inertial measurements or RGB features, into a skeleton-graph, by proposing fusion on two different dimensionality levels. On a channel dimension, modalities are fused by introducing additional node attributes. On a spatial dimension, additional nodes are incorporated into the skeleton-graph.
Transformer models showed excellent performance in the analysis of sequential data. We formulate the temporal action segmentation task as an object detection task and use a detection transformer model on our proposed motion image representations. Experiments for our action recognition related approaches are executed on large-scale publicly available datasets. Our approaches for action recognition for various modalities, action recognition by fusion of various modalities, and one-shot action recognition demonstrate state-of-the-art results on some datasets.
Finally, we present a hybrid imitation learning benchmark. The benchmark consists of a dataset, metrics, and a simulator integration. The dataset contains RGB-D image sequences of humans performing movements and executing manipulation tasks, as well as the corresponding ground truth. The RGB-D camera is calibrated against a motion-capturing system, and the resulting sequences serve as input for imitation learning approaches. The resulting policy is then executed in the simulated environment on different robots. We propose two metrics to assess the quality of the imitation. The trajectory metric gives insights into how close the execution was to the demonstration. The effect metric describes how close the final state was reached according to the demonstration. The Simitate benchmark can improve the comparability of imitation learning approaches.
Die Raytracing-Beschleunigung durch dedizierte Datenstrukturen ist schon lange ein wichtiges Thema der Computergrafik. Im Allgemeinen werden dafür zwei unterschiedliche Ansätze vorgeschlagen: räumliche und richtungsbezogene Beschleunigungsstrukturen. Die vorliegende Arbeit stellt einen innovativen kombinierten Ansatz dieser beiden Bereiche vor, welcher weitere Beschleunigung der Strahlenverfolgung ermöglicht. Dazu werden moderne räumliche Datenstrukturen als Basisstrukturen verwendet und um vorberechnete gerichtete Sichtbarkeitsinformationen auf Basis von Schächten innerhalb einer originellen Struktur, dem Line Space, ergänzt.
Im Laufe der Arbeit werden neuartige Ansätze für die vorberechneten Sichtbarkeitsinformationen vorgeschlagen: ein binärer Wert, der angibt, ob ein Schacht leer oder gefüllt ist, sowie ein einzelner Vertreter, der als repräsentativer Kandidat die tatsächliche Oberfläche approximiert. Es wird gezeigt, wie der binäre Wert nachweislich in einer einfachen, aber effektiven Leerraumüberspringungs-Technik (Empty Space Skipping) genutzt wird, welche unabhängig von der tatsächlich verwendeten räumlichen Basisdatenstruktur einen Leistungsgewinn beim Raytracing von bis zu 40% ermöglicht. Darüber hinaus wird gezeigt, dass diese binären Sichtbarkeitsinformationen eine schnelle Technik zur Berechnung von weichen Schatten und Umgebungsverdeckung auf der Grundlage von Blockerapproximationen ergeben. Obwohl die Ergebnisse einen gewissen Ungenauigkeitsfehler enthalten, welcher auch dargestellt und diskutiert wird, zeigt sich, dass eine weitere Traversierungsbeschleunigung von bis zu 300% gegenüber der Basisstruktur erreicht wird. Als Erweiterung zu diesem Ansatz wird die repräsentative Kandidatenvorberechnung demonstriert, welche verwendet wird, um die indirekte Lichtberechnung durch die Integration von kaum wahrnehmbaren Bildfehlern signifikant zu beschleunigen. Schließlich werden Techniken vorgeschlagen und bewertet, die auf zweistufigen Strukturen und einer Nutzungsheuristik basieren. Diese reduzieren den Speicherverbrauch und die Approximationsfehler bei Aufrechterhaltung des Geschwindigkeitsgewinns und ermöglichen zusätzlich weitere Möglichkeiten mit Objektinstanziierungen und starren Transformationen.
Alle Beschleunigungs- und Speicherwerte sowie die Näherungsfehler werden gemessen, dargestellt und diskutiert. Insgesamt zeigt sich, dass durch den Line Space eine deutliche Erhöhung der Raytracing Leistung auf Kosten eines höheren Speicherverbrauchs und möglicher Annäherungsfehler erreicht wird. Die vorgestellten Ergebnisse zeigen damit die Leistungsfähigkeit des kombinierten Ansatzes und eröffnen weitere Möglichkeiten für zukünftige Arbeiten.
Im Kontext der Erweiterten Realität versteht man unter Tracking Methoden zur Bestimmung von Position und Orientierung (Pose) eines Betrachters, die es ermöglichen, grafische Informationen mittels verschiedenster Displaytechniken lagerichtig in dessen Sichtfeld einzublenden. Die präzisesten Tracking-Ergebnisse liefern Methoden der Bildverarbeitung, welche in der Regel nur die Pixel des Kamerabildes zur Informationsgewinnung heranziehen. Der Bildentstehungsprozess wird bei diesen Verfahren jedoch nur bedingt oder sehr vereinfacht miteinbezogen. Bei modellbasierten Verfahren hingegen, werden auf Basis von 3D-Modelldaten Merkmale identifiziert, ihre Entsprechungen im Kamerabild gefunden und aus diesen Merkmalskorrespondenzen die Kamerapose berechnet. Einen interessanten Ansatz bilden die Strategien der Analyse-durch-Synthese, welche das Modellwissen um Informationen aus der computergrafischen Bildsynthese und weitere Umgebungsvariablen ergänzen.
Im Rahmen dieser Arbeit wird unter Anwendung der Analyse-durch-Synthese untersucht, wie die Informationen aus dem Modell, dem Renderingprozess und der Umgebung in die einzelnen Komponenten des Trackingsystems einfließen können. Das Ziel ist es, das Tracking, insbesondere die Merkmalssynthese und Korrespondenzfindung, zu verbessern. Im Vordergrund steht dabei die Gewinnung von visuell eindeutigen Merkmalen, die anhand des Wissens über topologische Informationen, Beleuchtung oder perspektivische Darstellung hinsichtlich ihrer Eignung für stabiles Tracking der Kamerapose vorhergesagt und bewertet werden können.
Diese Arbeit soll das von Dietz und Oppermann entwickelte Planspiel „Datenschutz 2.0“ an den heutigen Alltag der Schüler anpassen, die Benutzung in der Sekundarstufe II ermöglichen und die technischen und gesetzlichen Problematiken des Planspiels beheben. Das mit dem Planspiel aufgegriffene Thema Datenschutz ist im rheinland-pfälzischen Informatik-Lehrplan für die Sekundarstufe II verankert. Hier wird der Begriff Datenschutz in der Reihe „Datenerhebung unter dem Aspekt Datenschutz beurteilen“ genannt. Jedoch werden in dem Planspiel keine Daten erhoben, sondern die selbst hinterlassenen Datenspuren untersucht. Diese Form des Datenschutzes ist im Grundkurs in der vorgeschlagenen Reihe „Datensicherheit unter der Berücksichtigung kryptologischer Verfahren erklären und beachten“ unter dem Thema Kommunikation in Rechnernetzen zu finden. Im Leistungskurs steht die Datensicherheit in gleichbenannter Reihe und Thema und in der Reihe „Datenerhebung unter dem Aspekt Datenschutz beurteilen“ im Thema Wechselwirkung zwischen Informatiksysteme, Individuum und Gesellschaft.
Die Mitralklappe ist eine der vier Herzklappen des Menschen. Sie befindet sich in der linken Herzkammer und agiert als ein unidirektionales Ventil, welches den Blutfluss vom linken Atrium zum linken Ventrikel steuert. Eine funktionierende Mitralklappe verhindert den Rückfluss von Blut in den Lungenkreislauf, wodurch sie einen unverzichtbaren Anteil zu einem gesunden Herzkreislauf beiträgt. Pathologien der Mitralklappe können eine Reihe von Symptomen hervorrufen, welche in ihrer Schwere von Brustschmerzen und Ermüdung bis zum Lungenödem (dem Eindringen von Flüssigkeit in die Lunge) reichen können. Im schlimmsten Fall kann dieses zum Atemversagen führen.
Dysfunktionale Mitralklappen können mithilfe komplexer chirurgischer Eingriffe wiederhergestellt werden, welche in hohem Maße von intensiver Planung und präoperativer Analyse profitieren. Visualisierungstechniken eröffnen die Möglichkeit, solche Vorbereitungsprozesse zu unterstützen und können zudem einer postoperativen Evaluation dienlich sein. Die vorliegende Arbeit erweitert die Forschung in diesem Bereich. Sie stützt sich auf patientenspezifische Segmentierungen der Mitralklappe, wie sie am Deutschen Krebsforschungszentrum entwickelt werden. Solche Segmentierungen resultieren in 3D-Modellen der Mitralklappe. Der Kern dieser Arbeit wird sich mit der Konstruktion einer 2D-Ansicht dieser Modelle befassen. Die 2D-Visualisierung wird durch Methoden der globalen Parametrisierung erzeugt, welche es erlauben, bijektive Abbildungen zwischen einem planaren Parameterraum und Oberflächen in höheren Dimensionen zu erstellen.
Eine ebene Repräsentation der Mitralklappe ermöglicht Ärzten einen unmittelbaren Blick auf deren gesamte Oberfläche, analog zu einer Karte. Dies erlaubt die Begutachtung der Fläche und Form ohne die Notwendigkeit unterschiedlicher Blickwinkel. Teile der Klappe, die in der 3D-Ansicht von Geometrie verdeckt sind, werden in der 2D-Darstellung sichtbar.
Ein weiterer Beitrag dieser Arbeit ist die Untersuchung verschiedener Visualisierungen der 3D- und 2D-Mitralklappenrepräsentationen. Merkmale der Klappe können durch Assoziation mit spezifizierten Farbschemata hervorgehoben werden. So können zum Beispiel Pathologie-Indikatoren direkt vermittelt werden.
Qualität und Wirkungsgrad der vorgestellten Methoden wurden in einer Studie am Universitätsklinikum Heidelberg evaluiert.
This thesis addresses the automated identification and localization of a time-varying number of objects in a stream of sensor data. The problem is challenging due to its combinatorial nature: If the number of objects is unknown, the number of possible object trajectories grows exponentially with the number of observations. Random finite sets are a relatively new theory that has been developed to derive at principled and efficient approximations. It is based around set-valued random variables that contain an unknown number of elements which appear in arbitrary order and are themselves random. While extensively studied in theory, random finite sets have not yet become a leading paradigm in practical computer vision and robotics applications. This thesis explores random finite sets in visual tracking applications. The first method developed in this thesis combines set-valued recursive filtering with global optimization. The problem is approached in a min-cost flow network formulation, which has become a standard inference framework for multiple object tracking due to its efficiency and optimality. A main limitation of this formulation is a restriction to unary and pairwise cost terms. This circumstance makes integration of higher-order motion models challenging. The method developed in this thesis approaches this limitation by application of a Probability Hypothesis Density filter. The Probability Hypothesis Density filter was the first practically implemented state estimator based on random finite sets. It circumvents the combinatorial nature of data association itself by propagation of an object density measure that can be computed efficiently, without maintaining explicit trajectory hypotheses. In this work, the filter recursion is used to augment measurements with an additional hidden kinematic state to be used for construction of more informed flow network cost terms, e.g., based on linear motion models. The method is evaluated on public benchmarks where a considerate improvement is achieved compared to network flow formulations that are based on static features alone, such as distance between detections and appearance similarity. A second part of this thesis focuses on the related task of detecting and tracking a single robot operator in crowded environments. Different from the conventional multiple object tracking scenario, the tracked individual can leave the scene and later reappear after a longer period of absence. Therefore, a re-identification component is required that picks up the track on reentrance. Based on random finite sets, the Bernoulli filter is an optimal Bayes filter that provides a natural representation for this type of problem. In this work, it is shown how the Bernoulli filter can be combined with a Probability Hypothesis Density filter to track operator and non-operators simultaneously. The method is evaluated on a publicly available multiple object tracking dataset as well as on custom sequences that are specific to the targeted application. Experiments show reliable tracking in crowded scenes and robust re-identification after long term occlusion. Finally, a third part of this thesis focuses on appearance modeling as an essential aspect of any method that is applied to visual object tracking scenarios. Therefore, a feature representation that is robust to pose variations and changing lighting conditions is learned offline, before the actual tracking application. This thesis proposes a joint classification and metric learning objective where a deep convolutional neural network is trained to identify the individuals in the training set. At test time, the final classification layer can be stripped from the network and appearance similarity can be queried using cosine distance in representation space. This framework represents an alternative to direct metric learning objectives that have required sophisticated pair or triplet sampling strategies in the past. The method is evaluated on two large scale person re-identification datasets where competitive results are achieved overall. In particular, the proposed method better generalizes to the test set compared to a network trained with the well-established triplet loss.
This paper describes the robot Lisa used by team
homer@UniKoblenz of the University of Koblenz Landau, Germany, for the participation at the RoboCup@Home 2016 in Leipzig, Germany. A special focus is put on novel system components and the open source contributions of our team. We have released packages for object recognition, a robot face including speech synthesis, mapping and navigation, speech recognition interface via android and a GUI. The packages are available (and new packages will be released) on http://wiki.ros.org/agas-ros-pkg.
Diese Arbeit präsentiert einen Ansatz zur Optimierung der Berechnung von Halbschatten flächiger Lichtquellen. Die Lichtquelle wird durch Sampling uniform abgetastet. Als Datenstruktur wird ein N-tree verwendet, durch den die Strahlen als Paket traversiert werden. Der N-tree speichert in seinen Knoten einen Linespace, der Informationen über Geometrie innerhalb eines Schaftes bietet. Diese Sichtbarkeitsinformation wird als Kriterium für eine Terminierung eines Strahles genutzt. Zusätzlich wird die Grafikkarte (kurz GPU – engl. „graphics processing unit“) zur Beschleunigung durch Parallelisierung benutzt. Die Szene wird zunächst mit OpenGL gerendert und anschließend der Schattenwert für jedes Pixel auf der GPU berechnet. Im Anschluss werden die CPU- und GPU-Implementationen verglichen. Dabei zeigt die GPU-Implementation eine Beschleunigung von 86% gegenüber der CPU-Implementation und bietet eine gute Skalierung mit zunehmender Dreieckszahl. Die Verwendung des Linespace beschleunigt das Verfahren gegenüber der Durchführung von Schnitttests und zeigt für eine große Anzahl an Strahlen keine visuellen Nachteile.
Proceedings des FWS 2015
(2016)
Die Aufnahme, Verarbeitung und Analyse farbiger bzw. mehrkanaliger Bilder gewinnt seit Jahren ständig an Bedeutung. Diese Entwicklung wird durch die verbesserten technischen Möglichkeiten und die stetig steigenden Ansprüche aus den vielfältigen Anwendungsfeldern in Industrie, Medizin, Umwelt und Medien befördert. Diesem Trend folgend wurde in Koblenz 1995 erstmals der Workshop Farbbildverarbeitung durchgeführt und hat sich seitdem als jährlich stattfindende Veranstaltung etabliert. Als Veranstaltung der German ColorGroup bietet der Workshop ein Diskussionsforum für Forscher, Entwickler und Anwender, das sich den Problemen der Farbtheorie, Farbmessung, Farbbildaufnahme und spektralen Bildgewinnung ("hyper-spectral imaging") genauso wie der Entwicklung von neuen Methoden und Algorithmen zur Verarbeitung und Analyse von Farbbildern und mehrkanaligen (spektroskopischen) Bilddaten widmet. Ebenso nehmen Fragestellungen der farbtreuen Bildreproduktion auf verschiedenen Ausgabemedien wie auch die Nutzung von Methoden und Verfahren der Farbbildverarbeitung im Rahmen der industriellen Qualitätskontrolle sowie in Robotik und Automatisierung gebührenden Platz ein.