Filtern
Erscheinungsjahr
Dokumenttyp
- Bachelorarbeit (100)
- Diplomarbeit (81)
- Studienarbeit (76)
- Masterarbeit (46)
- Dissertation (18)
- Ausgabe (Heft) zu einer Zeitschrift (12)
- Konferenzveröffentlichung (2)
Sprache
- Deutsch (282)
- Englisch (51)
- Mehrsprachig (2)
Gehört zur Bibliographie
- nein (335) (entfernen)
Schlagworte
- Bildverarbeitung (16)
- Augmented Reality (13)
- Robotik (10)
- Computergrafik (9)
- Computergraphik (9)
- Computervisualistik (9)
- OpenGL (8)
- GPGPU (5)
- GPU (5)
- Line Space (5)
Institut
- Institut für Computervisualistik (335) (entfernen)
Human action recognition from a video has received growing attention in computer vision and has made significant progress in recent years. Action recognition is described as a requirement to decide which human actions appear in videos. The difficulties involved in distinguishing human actions are due to the high complexity of human behaviors as well as appearance variation, motion pattern variation, occlusions, etc. Many applications use human action recognition on captured video from cameras, resulting in video surveillance systems, health monitoring, human-computer interaction, and robotics. Action recognition based on RGB-D data has increasingly drawn more attention to it in recent years. RGB-D data contain color (Red, Green, and Blue (RGB)) and depth data that represent the distance from the sensor to every pixel in the object (object point). The main problem that this thesis deals with is how to automate the classification of specific human activities/actions through RGB-D data. The classification process of these activities utilizes a spatial and temporal structure of actions. Therefore, the goal of this work is to develop algorithms that can distinguish these activities by recognizing low-level and high-level activities of interest from one another. These algorithms are developed by introducing new features and methods using RGB-D data to enhance the detection and recognition of human activities. In this thesis, the most popular state-of-the-art techniques are reviewed, presented, and evaluated. From the literature review, these techniques are categorized into hand-crafted features and deep learning-based approaches. The proposed new action recognition framework is based on these two categories that are approved in this work by embedding novel methods for human action recognition. These methods are based on features extracted from RGB-D data that are
evaluated using machine learning techniques. The presented work of this thesis improves human action recognition in two distinct parts. The first part focuses on improving current successful hand-crafted approaches. It contributes into two significant areas of state-of-the-art: Execute the existing feature detectors, and classify the human action in the 3D spatio-temporal domains by testing a new combination of different feature representations. The contributions of this part are tested based on machine learning techniques that include unsupervised and supervised learning to evaluate this suitability for the task of human action recognition. A k-means clustering represents the unsupervised learning technique, while the supervised learning technique is represented by: Support Vector Machine, Random Forest, K-Nearest Neighbor, Naive Bayes, and Artificial Neural Networks classifiers. The second part focuses on studying the current deep-learning-based approach and how to use it with RGB-D data for the human action recognition task. As the first step of each contribution, an input video is analyzed as a sequence of frames. Then, pre-processing steps are applied to the video frames, like filtering and smoothing methods to remove the noisy data from each frame. Afterward, different motion detection and feature representation methods are used to extract features presented in each frame. The extracted features
are represented by local features, global features, and feature combination besides deep learning methods, e.g., Convolutional Neural Networks. The feature combination achieves an excellent accuracy performance that outperforms other methods on the same RGB-D datasets. All the results from the proposed methods in this thesis are evaluated based on publicly available datasets, which illustrate that using spatiotemporal features can improve the recognition accuracy. The competitive experimental results are achieved overall. In particular, the proposed methods can be better applied to the test set compared to the state-of-the-art methods using the RGB-D datasets.
Point Rendering
(2021)
In dieser Arbeit werden Verfahren zum Rendern von Punktdaten vorgestellt und miteinander verglichen. Die Verfahren lassen sich in zwei Kategorien unterteilen. Zum einen werden visuelle Verfahren behandelt, welche sich mit der reinen Darstellung von Punktprimitiven befassen. Hauptproblem ist dabei die Darstellung von Oberflächen, da Punktdaten im Gegensatz zu traditionellen Dreiecksnetzen keine Nachbarschaftsinformationen beinhalten. Zum anderen werden beschleunigende Datenstrukturen dargelegt, welche die echtzeitfähige Darstellung von großen Punktwolken ermöglichen. Punktwolken weisen häufig eine hohe Datenmenge auf, da diese meist durch 3D-Scanningverfahren wie z.B. Laserscanning und Photogrammetrie generiert werden.
Das Hauptziel der vorliegenden Arbeit ist die Absicherung der Qualität eines pharmazeutischen Produktionsprozesses durch die Überprüfung des Volumens mikroskopischer Polymerstäbchen mit einem hochgenauen 3D Messverfahren. Die Polymerstäbchen werden für pharmazeutische Anwendungen hergestellt. Aus Gründen der Qualitätssicherung muss das Istgewicht überprüft werden. Derzeit werden die Polymerstäbchen stichprobenartig mit einer hochpräzisen Waage gewogen. Für die nächste Generation von Polymeren wird angenommen, dass die Produktabmessungen weiter reduziert werden sollen und die Produktionstoleranzen auf 2,5% gesenkt werden. Die daraus resultierenden Genauigkeitsanforderungen übersteigen jedoch die Möglichkeiten der Wiegetechnik. Bei homogenen Materialien ist die Masse proportional zum Volumen. Aus diesem Grund kommt dessen Bestimmung als Alternative in Frage. Dies verschafft Zugang zu optischen Messverfahren und deren Flexibilität und Genauigkeitpotenzial. Für den Entwurf eines auf die Fragestellung angepassten Messkonzeptes sind weiterhin von Bedeutung, dass das Objekt kontaktlos, mit einer Taktzeit von maximal fünf Sekunden vermessen und das Volumen approximiert wird. Die Querschnitte der Polymerstäbchen sind etwa kreisförmig. Aufgrund der Herstellung der Fragmente kann nicht davon ausgegangen werden, dass die Anlageflächen orthogonal zur Symmetrieachse des Objektes sind. Daher muss analysiert werden, wie sich kleine Abweichungen von kreisförmigen Querschnitten sowie die nicht idealen Anlageflächen auswirken. Die maximale Standardabweichung für das Volumen, die nicht überschritten werden sollte, beträgt 2,5%. Dies entspricht einer maximalen Abweichung der Querschnittsfläche um 1106 µm² (Fehlerfortpfanzung). Als Bewertungskriterium wird der Korrelationskoeffzient zwischen den gemessenen Volumina und den Massen bestimmt. Ein ideales Ergebnis wäre 100%. Die Messung zielt auf einen Koeffzienten von 98% ab. Um dies zu erreichen, ist ein präzises Messverfahren für Volumen erforderlich. Basierend auf dem aktuellen Stand der Technik können die vorhandenen optischen Messverfahren nicht verwendet werden. Das Polymerstäbchen wird von einer Kamera im Durchlicht beobachtet. Daher sind der Durchmesser und die Länge sichtbar. Das Objekt wird mittels einer mechanischen Vorrichtung um die Längsachse gedreht. So können Bilder von allen Seiten aufgenommen werden. Der Durchmesser und die Länge werden mit der Bildverarbeitung berechnet. Das neue Konzept vereint die Vorteile der Verfahren: Es ist unempfindlich gegen Farb-/Helligkeitsänderungen und die Bilder können in beliebiger Anzahl aufgenommen werden. Außerdem sind die Erfassung und Auswertung wesentlich schneller. Es wird ein Entwurf und die Umsetzung einer Lösung zur hochpräzisen Volumenmessung von Polymerstäbchen mit optischer Messtechnik und Bildverarbeitung ausgearbeitet. Diese spezielle Prozesslösung in der Prozesslinie (inline) sollte eine 100%ige Qualitätskontrolle während der Produktion garantieren. Die Zykluszeiten des Systems sollte fünf Sekunden pro Polymerstäbchen nicht überschreiten. Die Rahmenbedienungen für den Prozess sind durch die Materialeigenschaften des Objekts, die geringe Objektgröße (Breite = 199 µm, Länge = 935 µm bis 1683 µm) und die undeffinierte Querschnittsform (durch den Trocknungsprozess) vorgegeben. Darüber hinaus sollten die Kosten für den Prozess nicht zu hoch sein. Der Messaufbau sollte klein sein und ohne Sicherheitsvorkehrungen oder Abschirmungen arbeiten. Das entstandene System nimmt die Objekte in verschiedenen Winkelschritten auf, wertet mit Hilfe der Bildverarbeitung die Aufnahmen aus und approximiert das Volumen. Der Korrelationskoffizient zwischen Volumen und Gewicht beträgt für 77 Polymerstäbchen mit einem Gewicht von 37 µg bis 80 µg 99; 87%. Mit Hilfe eines Referenzsystems kann die Genauigkeit der Messung bestimmt werden. Die Standardabweichung sollte maximal 2,5% betragen. Das entstandene System erzielt eine maximale Volumenabweichung von 1,7%. Die Volumenvermessung erfüllt alle Anforderungen und kann somit als Alternative für die Waage verwendet werden.
Konstituenten-Parsing versucht, syntaktische Struktur aus einem Satz zu extrahieren. Diese Parsing-Systeme sind in vielen maschinellen Sprachverarbeitungsanwendungen hilfreich, wie z.B. bei der Grammatikprüfung, der Beantwortung von Fragen und der Informationsextraktion. In dieser Masterarbeit geht es um die Implementierung eines Konstituentenparsers für die deutsche Sprache mit Hilfe von neuronalen Netzen. In der Vergangenheit wurden wiederkehrende neuronale Netze beim Aufbau eines Parsers und auch bei vielen maschinellen Sprachverarbeitungsanwendungen verwendet. Dabei werden Module des neuronalen Netzes mit Selbstaufmerksamkeit intensivgenutzt, um Sätze effektiv zu verstehen. Bei mehrschichtigen Selbstaufmerksamkeitsnetzwerken erreicht das konstituierende
Parsen 93,68% F1-Scoret. Dies wird noch weiter verbessert, indem sowohl Zeichen- als auch Worteinbettungen als Darstellung des Inputs verwendet werden. Ein F1-Score von 94,10% wurde am besten durch den Konstituenten-Parser erreicht, der nur den bereitgestellten Datensatz verwendet. Mit Hilfe externer Datensätze wie der deutschen Wikipedia werden vortrainierte ELMo-Modelle zusammen mit Selbstbeobachtungsnetzwerken verwendet, die einen F1-Score von 95,87% erreichen.
Since the invention of U-net architecture in 2015, convolutional networks based on its encoder-decoder approach significantly improved results in image analysis challenges. It has been proven that such architectures can also be successfully applied in different domains by winning numerous championships in recent years. Also, the transfer learning technique created an opportunity to push state-of-the-art benchmarks to a higher level. Using this approach is beneficial for the medical domain, as collecting datasets is generally a difficult and expensive process.
In this thesis, we address the task of semantic segmentation with Deep Learning and make three main contributions and release experimental results that have practical value for medical imaging.
First, we evaluate the performance of four neural network architectures on the dataset of the cervical spine MRI scans. Second, we use transfer learning from models trained on the Imagenet dataset and compare it to randomly initialized networks. Third, we evaluate models trained on the bias field corrected and raw MRI data. All code to reproduce results is publicly available online.
In der Computergrafik stellte die Berechnung von Reflexionen lange ein
Problem dar. Doch mit der ständigen Weiterentwicklung der Hardware
und Vorstellung neuer Verfahren ist eine realitätsnahe,
echtzeitfähige(durchschnittlich 60 FPS) Berechnung von Reflexionen möglich. In der folgenden Ausarbeitung werden verschiedene Reflexionsverfahren vorgestellt. Alle mathematischen und physikalischen Grundlagen werden gegeben, um die Algorithmen nachvollziehen zu können. Da eine Reflexion immer das Abtasten eines reflektierten Vektors bedeutet, werden zwei verschiedene Abtastungsverfahren für blickabhängige Reflexionen vorgestellt und anschließend implementiert. Zuletzt werden die Verfahren auf Basis von Qualität und Performance gegenübergestellt.
In dieser Arbeit wird die Konzeption, Implementierung und Evaluierung einer Augmented Reality-App beschrieben. Diese wurde mit dem Ziel entwickelt, Objekte im realen Raum mit virtuellen Hilfsmitteln auszumessen, sodass diese Anwendung einen Holzgliedermaßstab ersetzen kann. Hinzu kommt die praktische Speicherung der Messwerte. Angefertigt wurde die App mit der Unity Engine und programmiert in C#.
Schwerpunkte dieser Arbeit sind die Benutzerfreundlichkeit der App, sowie die Eignung von AR Foundation für das Ausmessungstool.
Die Anwendung wird auf die genannten Kriterien im Rahmen eines Nutzertests in einer abschließenden Evaluation bewertet.
Als Ergebnis ließ sich festhalten, dass sich die AR-App noch im Prototyp-Stadium befindet, aber im Allgemeinen schon als benutzerfreundlich gilt. Kleinere Änderungen sollen und müssen noch vorgenommen werden, um auch den Umgang mit dem AR-Tool zu vereinfachen.
Studien der vergangenen Jahre haben gezeigt, dass im Bereich der Datenschutzkompetenz ein Mangel bei Jugendlichen und jungen Erwachsenen besteht, jedoch standen Kinder und Jugendliche im Alter von zehn bis 13 Jahren dabei nicht so stark im Fokus. Daher ist die Leitfrage der Arbeit, wie die Datenschutzkompetenz bei Kindern und Jugendlichen in dem jüngeren Alter ausgebildet ist, um für diese Altersgruppe passende Konzepte entwickeln zu können. Zu Beginn der Arbeit wird ausgehend von einem Medienkompetenzmodell ein Datenschutzkompetenzmodell abgeleitet, welches als Grundlage für die weitere Felduntersuchung dient. An allgemeinbildenden weiterführenden Schulen in Rheinland-Pfalz wurde eine Erhebung durchgeführt, die zeigt, dass die Befragten im Bereich der Risikoabschätzung noch eine ausreichende, aber im Bereich des Wissens, der Auswahl- und Nutzungskompetenz und der Handlungskompetenz eine mangelhafte Kompetenz besitzen. Um diesem Problem zu begegnen, werden im letzten Teil der Arbeit Handlungsempfehlungen in Form von Lernzielbeschreibungen formuliert, um ausgehend davon zukünftig passende Lehr-Lern-Settings implementieren zu können.
Die Material Point Method (MPM) hat sich in der Computergrafik als äußerst fähige Simulationsmethode erwiesen, die in der Lage ist ansonsten schwierig zu animierende Materialien zu modellieren [1, 2]. Abgesehen von der Simulation einzelner Materialien stellt die Simulation mehrerer Materialien und ihrer Interaktion weitere Herausforderungen bereit. Dies ist Thema dieser Arbeit. Es wird gezeigt, dass die MPM durch die Fähigkeit Eigenkollisionen implizit handzuhaben ebenfalls in der Lage ist Kollisionen zwischen Objekten verschiedenster Materialien zu beschreiben, selbst, wenn verschiedene Materialmodelle eingesetzt werden. Dies wird dann um die Interaktion poröser Materialien wie in [3] erweitert, was ebenfalls gut mit der MPM integriert. Außerdem wird gezeigt das MPM auf Basis eines einzelnen Gitters als Untermenge dieses Mehrgitterverfahrens betrachtet werden kann, sodass man das gleiche Verhalten auch mit mehreren Gittern modellieren kann. Die poröse Interaktion wird auf beliebige Materialien erweitert, einschließlich eines frei formulierbaren Materialinteraktionsterms. Das Resultat ist ein flexibles, benutzersteuerbares Framework das unabhängig vom Materialmodell ist. Zusätzlich wird eine einfache GPU-Implementation der MPM vorgestellt, die die Rasterisierungspipeline benutzt um Schreibkonflikte aufzulösen. Anders als andere Implementationen wie [4] ist die vorgestellte Implementation kompatibel mit einer Breite an Hardware.
Im Kontext der Erweiterten Realität versteht man unter Tracking Methoden zur Bestimmung von Position und Orientierung (Pose) eines Betrachters, die es ermöglichen, grafische Informationen mittels verschiedenster Displaytechniken lagerichtig in dessen Sichtfeld einzublenden. Die präzisesten Tracking-Ergebnisse liefern Methoden der Bildverarbeitung, welche in der Regel nur die Pixel des Kamerabildes zur Informationsgewinnung heranziehen. Der Bildentstehungsprozess wird bei diesen Verfahren jedoch nur bedingt oder sehr vereinfacht miteinbezogen. Bei modellbasierten Verfahren hingegen, werden auf Basis von 3D-Modelldaten Merkmale identifiziert, ihre Entsprechungen im Kamerabild gefunden und aus diesen Merkmalskorrespondenzen die Kamerapose berechnet. Einen interessanten Ansatz bilden die Strategien der Analyse-durch-Synthese, welche das Modellwissen um Informationen aus der computergrafischen Bildsynthese und weitere Umgebungsvariablen ergänzen.
Im Rahmen dieser Arbeit wird unter Anwendung der Analyse-durch-Synthese untersucht, wie die Informationen aus dem Modell, dem Renderingprozess und der Umgebung in die einzelnen Komponenten des Trackingsystems einfließen können. Das Ziel ist es, das Tracking, insbesondere die Merkmalssynthese und Korrespondenzfindung, zu verbessern. Im Vordergrund steht dabei die Gewinnung von visuell eindeutigen Merkmalen, die anhand des Wissens über topologische Informationen, Beleuchtung oder perspektivische Darstellung hinsichtlich ihrer Eignung für stabiles Tracking der Kamerapose vorhergesagt und bewertet werden können.