Filtern
Erscheinungsjahr
- 2021 (5) (entfernen)
Dokumenttyp
- Dissertation (4)
- Masterarbeit (1)
Sprache
- Englisch (5) (entfernen)
Schlagworte
Institut
- Institut für Computervisualistik (5) (entfernen)
In dieser Arbeit wird die Geschwindigkeit des Simulationscodes zur Pho-
tonenausbreitung beim IceCube-Projekt (clsim) optimiert. Der Prozess der
GPU-Code-Analyse und Leistungsoptimierung wird im Detail beschrie-
ben. Wenn beide Codes auf der gleichen Hardware ausgeführt werden,
wird ein Speedup von etwa 3x gegenüber der ursprünglichen Implemen-
tierung erreicht. Vergleicht man den unveränderten Code auf der derzeit
von IceCube verwendeten Hardware (NVIDIA GTX 1080) mit der opti-
mierten Version, die auf einer aktuellen GPU (NVIDIA A100) läuft, wird
ein Speedup von etwa 9,23x beobachtet. Alle Änderungen am Code wer-
den vorgestellt und deren Auswirkung auf die Laufzeit und Genauigkeit
der Simulation diskutiert.
Der für die Optimierung verfolgte Weg wird dann in einem Schema
verallgemeinert. Programmierer können es als Leitfaden nutzen, um große
und komplexe GPU-Programme zu optimieren. Darüber hinaus wird die
per warp job-queue, ein Entwurfsmuster für das load balancing innerhalb
eines CUDA-Thread-Blocks, im Detail besprochen.
Die Raytracing-Beschleunigung durch dedizierte Datenstrukturen ist schon lange ein wichtiges Thema der Computergrafik. Im Allgemeinen werden dafür zwei unterschiedliche Ansätze vorgeschlagen: räumliche und richtungsbezogene Beschleunigungsstrukturen. Die vorliegende Arbeit stellt einen innovativen kombinierten Ansatz dieser beiden Bereiche vor, welcher weitere Beschleunigung der Strahlenverfolgung ermöglicht. Dazu werden moderne räumliche Datenstrukturen als Basisstrukturen verwendet und um vorberechnete gerichtete Sichtbarkeitsinformationen auf Basis von Schächten innerhalb einer originellen Struktur, dem Line Space, ergänzt.
Im Laufe der Arbeit werden neuartige Ansätze für die vorberechneten Sichtbarkeitsinformationen vorgeschlagen: ein binärer Wert, der angibt, ob ein Schacht leer oder gefüllt ist, sowie ein einzelner Vertreter, der als repräsentativer Kandidat die tatsächliche Oberfläche approximiert. Es wird gezeigt, wie der binäre Wert nachweislich in einer einfachen, aber effektiven Leerraumüberspringungs-Technik (Empty Space Skipping) genutzt wird, welche unabhängig von der tatsächlich verwendeten räumlichen Basisdatenstruktur einen Leistungsgewinn beim Raytracing von bis zu 40% ermöglicht. Darüber hinaus wird gezeigt, dass diese binären Sichtbarkeitsinformationen eine schnelle Technik zur Berechnung von weichen Schatten und Umgebungsverdeckung auf der Grundlage von Blockerapproximationen ergeben. Obwohl die Ergebnisse einen gewissen Ungenauigkeitsfehler enthalten, welcher auch dargestellt und diskutiert wird, zeigt sich, dass eine weitere Traversierungsbeschleunigung von bis zu 300% gegenüber der Basisstruktur erreicht wird. Als Erweiterung zu diesem Ansatz wird die repräsentative Kandidatenvorberechnung demonstriert, welche verwendet wird, um die indirekte Lichtberechnung durch die Integration von kaum wahrnehmbaren Bildfehlern signifikant zu beschleunigen. Schließlich werden Techniken vorgeschlagen und bewertet, die auf zweistufigen Strukturen und einer Nutzungsheuristik basieren. Diese reduzieren den Speicherverbrauch und die Approximationsfehler bei Aufrechterhaltung des Geschwindigkeitsgewinns und ermöglichen zusätzlich weitere Möglichkeiten mit Objektinstanziierungen und starren Transformationen.
Alle Beschleunigungs- und Speicherwerte sowie die Näherungsfehler werden gemessen, dargestellt und diskutiert. Insgesamt zeigt sich, dass durch den Line Space eine deutliche Erhöhung der Raytracing Leistung auf Kosten eines höheren Speicherverbrauchs und möglicher Annäherungsfehler erreicht wird. Die vorgestellten Ergebnisse zeigen damit die Leistungsfähigkeit des kombinierten Ansatzes und eröffnen weitere Möglichkeiten für zukünftige Arbeiten.
Typischerweise erweitern Augmented Reality (AR)-Anwendungen die Sicht des Benutzers auf die reale Welt um virtuelle Objekte.
In den letzten Jahren hat AR zunehmend an Popularität und Aufmerksamkeit gewonnen. Dies hat zu Verbesserungen der benötigten Technologien geführt. AR ist dadurch für fast jeden zugänglich geworden.
Forscher sind dem Ziel einer glaubwürdigen AR, in der reale und virtuelle Welten nahtlos miteinander verbunden sind, einen großen Schritt näher gekommen. Sie konzentrieren sich hauptsächlich auf Themen wie Tracking, Anzeige-Technologien und Benutzerinteraktion und schenken der visuellen und physischen Kohärenz bei der Kombination realer und virtueller Objekte wenig Aufmerksamkeit. Beispielsweise sollen virtuelle Objekte nicht nur auf die Eingaben des Benutzers reagieren, sondern auch mit realen Objekten interagieren. Generell wird AR glaubwürdiger und realistischer, wenn virtuelle Objekte fixiert oder verankert in der realen Szene erscheinen, sich nicht von der realen Szene unterscheiden und auf Veränderungen dieser Szene reagieren.
Diese Arbeit untersucht drei Herausforderungen im Bereich Maschinelles Sehen um dem Ziel einer glaubwürdig kombinierten Welt näher zu kommen, in der virtuelle Objekte wie reale erscheinen und sich ebenso verhalten.
Diese Dissertation konzentriert sich als erstes auf das bekannte Tracking- und Registrierungsproblem. Hierzu wird die Herausforderung von Tracking und Registrierung diskutiert und ein Ansatz vorgestellt, um die Position und den Blickpunkt des Benutzers zu schätzen, so dass virtuelle Objekte in der realen Welt fest verankert erscheinen. Linienmodelle, die dem Erscheinungsbild entsprechen und nur für Trackingzwecke relevante Kanten beinhalten, ermöglichen eine absolute Registrierung in der realen Welt und ein robustes Tracking. Einerseits ist es nicht notwendig, viel Zeit in die manuelle Erstellung geeigneter Modelle zu investieren, andererseits ist das Tracking in der Lage mit Änderungen innerhalb des zu verfolgenden Objekts oder Szene umzugehen. Versuche haben gezeigt, dass die Verwendung von solchen Linienmodellen die Robustheit, Genauigkeit und Re-initialisierungsgeschwindigkeit des Tracking-Prozesses verbessert haben.
Zweitens beschäftigt sich diese Dissertation mit dem Thema der Oberflächenrekonstruk\-tion einer realen Umgebung und präsentiert einen Algorithmus zur Optimierung einer laufenden Oberflächenrekonstruktion. Vollständige 3D-Oberflächenrekonstruktionen einer Szene
eröffnen neue Möglichkeiten um realistischere AR-Anwendungen zu erstellen. Verschiedene Interaktionen zwischen realen und virtuellen Objekten, wie Kollisionen und Verdeckungen, können physikalisch korrekt behandelt werden. Während sich die bisherigen Methoden darauf konzentrierten die Oberflächenrekonstruktionen nach einem Aufnahmeschritt zu verbessern, wird die Rekonstruktion während der Aufnahme erweitert, Löcher werden geschlossen und Rauschen wird reduziert. Um eine unbekannte Umgebung zu erkunden muss der Benutzer keine Vorbereitungen treffen. Das Scannen der Szene oder eine vorhergehende Auseinandersetzung mit der zugrundeliegenden Technologie ist somit nicht notwendig.
In Experimenten lieferte der Ansatz realistische Ergebnisse, bei denen bekannte Oberflächen für verschiedene Oberflächentypen erweitert und Löcher plausibel gefüllt wurden.
Anschließend konzentriert sich diese Dissertation auf die Behandlung von realistischen Verdeckungen zwischen realer und virtueller Welt. Hierzu wird die Herausforderung der Verdeckung als Alpha Matting Problem formuliert. Die vorgestellte Methode überwindet die Grenzen moderner Methoden, indem ein Überblendungskoeffizienten pro Pixel der gerenderten virtuellen Szene schätzt wird, anstatt nur deren Sichtbarkeit zu berechnen. In mehreren Experimenten und Vergleichen mit anderen Methoden hat sich die Verdeckungsbehandlung durch Alpha Matting als robust erwiesen und kann mit Daten, die durch preiswerte Sensoren aufgenommen wurden, umgehen. Hinsichtlich der Qualität, des Realismus und der praktischen Anwendbarkeit übertrifft die Methode die Ergebnisse von bisherigen Ansätzen.
Des Weiteren kann die Methode mit verrauschten Tiefendaten umgehen und liefert realistische Ergebnisse in Regionen, in denen Vorder- und Hintergrund nicht strikt voneinander trennbar sind (z.B. bei Objekten mit einer undeutlichen Kontur oder durch Bewegungsunschärfe).
Efficient Cochlear Implant (CI) surgery requires prior knowledge of the cochlea’s size and its characteristics. This information helps to select suitable implants for different patients. Registered and fused images helps doctors by providing more informative image that takes advantages of different modalities. The cochlea’s small size and complex structure, in addition to the different resolutions and head positions during imaging, reveals a big challenge for the automated registration of the different image modalities. To obtain an automatic measurement of the cochlea length and the volume size, a segmentation method of cochlea medical images is needed. The goal of this dissertation is to introduce new practical and automatic algorithms for the human cochlea multi-modal 3D image registration, fusion, segmentation and analysis. Two novel methods for automatic cochlea image registration (ACIR) and automatic cochlea analysis (ACA) are introduced. The proposed methods crop the input images to the cochlea part and then align the cropped images to obtain the optimal transformation. After that, this transformation is used to align the original images. ACIR and ACA use Mattes mutual information as similarity metric, the adaptive stochastic gradient descent (ASGD) or the stochastic limited memory Broyden–Fletcher–Goldfarb–Shanno (s-LBFGS) optimizer to estimate the parameters of 3D rigid transform. The second stage of nonrigid registration estimates B-spline coefficients that are used in an atlas-model-based segmentation to extract cochlea scalae and the relative measurements of the input image. The image which has segmentation is aligned to the input image to obtain the non-rigid transformation. After that the segmentation of the first image, in addition to point-models are transformed to the input image. The detailed transformed segmentation provides the scala volume size. Using the transformed point-models, the A-value, the central scala lengths, the lateral and the organ of corti scala tympani lengths are computed. The methods have been tested using clinical 3D images of total 67 patients: from Germany (41 patients) and Egypt (26 patients). The atients are of different ages and gender. The number of images used in the experiments is 217, which are multi-modal 3D clinical images from CT, CBCT, and MRI scanners. The proposed methods are compared to the state of the arts ptimizers related medical image registration methods e.g. fast adaptive stochastic gradient descent (FASGD) and efficient preconditioned tochastic gradient descent (EPSGD). The comparison used the root mean squared distance (RMSE) between the ground truth landmarks and the resulted landmarks. The landmarks are located manually by two experts to represent the round window and the top of the cochlea. After obtaining the transformation using ACIR, the landmarks of the moving image are transformed using the resulted transformation and RMSE of the transformed landmarks, and at the same time the fixed image landmarks are computed. I also used the active length of the cochlea implant electrodes to compute the error aroused by the image artifact, and I found out an error ranged from 0.5 mm to 1.12 mm. ACIR method’s RMSE average was 0.36 mm with a standard deviation (SD) of 0.17 mm. The total time average required for registration of an image pair using ACIR was 4.62 seconds with SD of 1.19 seconds. All experiments are repeated 3 times for justifications. Comparing the RMSE of ACIR2017 and ACIR2020 using paired T-test shows no significant difference (p-value = 0.17). The total RMSE average of ACA method was 0.61 mm with a SD of 0.22 mm. The total time average required for analysing an image was 5.21 seconds with SD of 0.93 seconds. The statistical tests show that there is no difference between the results from automatic A-value method and the manual A-value method (p-value = 0.42). There is no difference also between length’s measurements of the left and the right ear sides (p-value > 0.16). Comparing the results from German and Egypt dataset shows there is no difference when using manual or automatic A-value methods (p-value > 0.20). However, there is a significant difference when using ACA2000 method between the German and the Egyptian results (p-value < 0.001). The average time to obtain the segmentation and all measurements was 5.21 second per image. The cochlea scala tympani volume size ranged from 38.98 mm3 to 57.67 mm3 . The combined scala media and scala vestibuli volume size ranged from 34.98 mm 3 to 49.3 mm 3 . The overall volume size of the cochlea should range from 73.96 mm 3 to 106.97 mm 3 . The lateral wall length of scala tympani ranged from 42.93 mm to 47.19 mm. The organ-of-Corti length of scala tympani ranged from 31.11 mm to 34.08 mm. Using the A-value method, the lateral length of scala tympani ranged from 36.69 mm to 45.91 mm. The organ-of-Corti length of scala tympani ranged from 29.12 mm to 39.05 mm. The length from ACA2020 method can be visualised and has a well-defined endpoints. The ACA2020 method works on different modalities and different images despite the noise level or the resolution. In the other hand, the A-value method works neither on MRI nor noisy images. Hence, ACA2020 method may provide more reliable and accurate measurement than the A-value method. The source-code and the datasets are made publicly available to help reproduction and validation of my result.
Human action recognition from a video has received growing attention in computer vision and has made significant progress in recent years. Action recognition is described as a requirement to decide which human actions appear in videos. The difficulties involved in distinguishing human actions are due to the high complexity of human behaviors as well as appearance variation, motion pattern variation, occlusions, etc. Many applications use human action recognition on captured video from cameras, resulting in video surveillance systems, health monitoring, human-computer interaction, and robotics. Action recognition based on RGB-D data has increasingly drawn more attention to it in recent years. RGB-D data contain color (Red, Green, and Blue (RGB)) and depth data that represent the distance from the sensor to every pixel in the object (object point). The main problem that this thesis deals with is how to automate the classification of specific human activities/actions through RGB-D data. The classification process of these activities utilizes a spatial and temporal structure of actions. Therefore, the goal of this work is to develop algorithms that can distinguish these activities by recognizing low-level and high-level activities of interest from one another. These algorithms are developed by introducing new features and methods using RGB-D data to enhance the detection and recognition of human activities. In this thesis, the most popular state-of-the-art techniques are reviewed, presented, and evaluated. From the literature review, these techniques are categorized into hand-crafted features and deep learning-based approaches. The proposed new action recognition framework is based on these two categories that are approved in this work by embedding novel methods for human action recognition. These methods are based on features extracted from RGB-D data that are
evaluated using machine learning techniques. The presented work of this thesis improves human action recognition in two distinct parts. The first part focuses on improving current successful hand-crafted approaches. It contributes into two significant areas of state-of-the-art: Execute the existing feature detectors, and classify the human action in the 3D spatio-temporal domains by testing a new combination of different feature representations. The contributions of this part are tested based on machine learning techniques that include unsupervised and supervised learning to evaluate this suitability for the task of human action recognition. A k-means clustering represents the unsupervised learning technique, while the supervised learning technique is represented by: Support Vector Machine, Random Forest, K-Nearest Neighbor, Naive Bayes, and Artificial Neural Networks classifiers. The second part focuses on studying the current deep-learning-based approach and how to use it with RGB-D data for the human action recognition task. As the first step of each contribution, an input video is analyzed as a sequence of frames. Then, pre-processing steps are applied to the video frames, like filtering and smoothing methods to remove the noisy data from each frame. Afterward, different motion detection and feature representation methods are used to extract features presented in each frame. The extracted features
are represented by local features, global features, and feature combination besides deep learning methods, e.g., Convolutional Neural Networks. The feature combination achieves an excellent accuracy performance that outperforms other methods on the same RGB-D datasets. All the results from the proposed methods in this thesis are evaluated based on publicly available datasets, which illustrate that using spatiotemporal features can improve the recognition accuracy. The competitive experimental results are achieved overall. In particular, the proposed methods can be better applied to the test set compared to the state-of-the-art methods using the RGB-D datasets.