Filtern
Dokumenttyp
- Studienarbeit (74) (entfernen)
Sprache
- Deutsch (74) (entfernen)
Schlagworte
- Robotik (8)
- Bildverarbeitung (5)
- Computergraphik (4)
- Augmented Reality (3)
- Augenbewegung (2)
- Autonomes Robotersystem (2)
- Computer (2)
- Computersimulation (2)
- Computerspiel (2)
- GLSL (2)
Institut
- Institut für Computervisualistik (74) (entfernen)
In dieser Arbeit werden jeweils ein Verfahren aus den beiden Bereichen der Bildregistrierung implementiert und beschrieben. Eine direkte und eine merkmalsbasierte Methode werden verglichen und auf ihre Grenzen hin überprüft. Die implementierten Verfahren funktionieren gut und registrieren beide verschiedene Bildserien subpixelgenau. Bei der direkten Methode ist vor allem die Wahl des Transformationsmodells ausschlaggebend. Auch das Einbetten der Methode in eine Gaußpyramidenstruktur hat sich als wichtig herausgestellt. Da die merkmalsbasierte Methode aus verschiedenen Komponenten aufgebaut ist, kann jeder einzelne Schritt durch unterschiedliche Verfahren ausgetauscht werden, so z.B. die Detektion der Merkmale durch Tomasi-Kanade, SIFT oder Moravec. In der direkten Methode kann die Genauigkeit der Ergebnisse zum einen durch den gewählten Schwellwert und zum anderen durch die Anzahl der Pyramidenstufen beeinflusst werden. Bei der merkmalsbasierten Methode wiederum können unterschiedlich viele Merkmale benutzt werden, die einen unterschiedlich hohen Schwellwert besitzen können. Es wird gezeigt, dass beide Methoden zu guten Ergebnissen führen, wenn davon ausgegangen wird, dass die Verschiebung sowie die Rotation gering sind. Bei stärkeren Veränderungen jedoch wird die direkte Methode recht ungenau, während die merkmalsbasierte Methode noch gute Ergebnisse erzielt. An ihre Grenze gerät sie erst, wenn entweder der Bildinhalt sich stark ändert, oder die Rotationen einen Winkel von 20° überschreitet. Beide Verfahren arbeiten also subpixelgenau, können aber unter verschiedenen Voraussetzungen zu Ungenauigkeiten führen. Werden die jeweiligen Probleme der beiden Methoden beachtet und am besten bei der Aufnahme oder vor der Registrierung eliminiert, so können sehr gute Ergebnisse erzielt werden.
Der Schwerpunkt dieser Arbeit soll auf der schnellen sowie einfachen Umsetzung eigener Ideen von AR-Anwendungen liegen. Damit ein gewisser zeitlicher Rahmen bei der Umsetzung nicht überschritten wird, wurden Lösungen, die eine große Einarbeitungszeit oder fundierte Kenntnisse einer oder mehrer Programmiersprachen erfordern, nicht genauer betrachtet. Unter einer einfachen Umsetzung ist nicht zuletzt auch zu verstehen, dass diese auch dem Kreis der nicht-professionellen Anwender möglich sein soll. Dies beinhaltet, dass das gesuchte Programm auf normalen dem durchschnittlichen derzeitigen Stand der Technik entsprechenden Computersystemen lauffähig sein sollte. Auch wurden kommerzielle Produkte außer Acht gelassen, da die oft nicht unerheblichen Kosten einer nicht-professionellen Nutzung im Wege stehen.
In der vorliegenden Studienarbeit wird eine OpenGL-Applikation vorgestellt, die Geometrie-Shader in einem Feedback-Loop einsetzt, um auf der GPU Geometrie zu erzeugen. Dargelegt werden die erforderlichen Grundlagen Geometrie-Shader und Transform Feedback betreffend, die Umsetzung der Anwendung und die eingesetzten GLSL-Shader.
In dieser Arbeit werden mehrere Verfahren zur Superresolution, die zwei unterschiedlichen Ansätzen zuzuordnen sind, implementiert und miteinander verglichen. IBP, ein Verfahren, welches der Tomographie ähnelt, stellt den klassischen Ansatz der Superresolution dar. Das Prinzip von IBP ist leicht verständlich und relativ einfach zu implementieren, hat aber den Nachteil, keine eindeutigen Lösungen zu produzieren, da es schwer ist, Vorwissen mit einfließen zu lassen. Bei den statistischen Verfahren erweist es sich als äußerst zeitkritisch, die Systemmatrix M vorzuberechnen. Capel und Zisserman haben beim Maximum-Likelihood-Verfahren eine starke Rauschanfälligkeit festgestellt. Der Vergleich ergibt, dass IBP in punkto Bildqualität Maßstäbe setzt, zumindest bei kaum verrauschten Eingangsbildern und guter Registrierung. Allerdings stellen viele Eingangsbilder wegen des linearen Laufzeitverhaltens ein Problem dar. Die statistischen Verfahren liefern bei stark verrauschten Eingangsbildern bessere Ergebnisse als IBP. Durch viele Eingangsbilder lassen sich diese noch weiter verbessern. Die bei vorberechneten Systemmatrizen nahezu konstante Laufzeit und ihre Robustheit bei Rauschen prädestinieren die statistischen Verfahren für solche Bildserien. Ungenau registrierte Eingangsbilder wiederum führen bei allen Verfahren zu unscharfen Ergebnissen.
Die Studienarbeit analysiert mit Hilfe einer erweiterten Balancetheorie die Relationen des Roboters zu den Personen im Kamerabild und den Personen untereinander. Es wurde gezeigt, dass die Abstraktion der Balancetheorie auf eine konkrete Anwendung übertragen werden kann. Allerdings muss die Theorie erweitert und teilweise eingeschränkt werden, um sie flexibler, aber gleichzeitig passend zur Anwendung zu gestalten. Dadurch wird die theoretische Grundlage, auf der die Arbeit beruht, ebenfalls verändert. Damit diese Modifikationen nicht den Rahmen der psychologischen Grundlage verlassen, müssen sie wiederum mit psychologischen Mitteln untersucht werden. Das würde allerdings den Umfang dieser Arbeit überschreiten, aber bietet ein Ansatz für eine interdisziplinäre Zusammenarbeit der Psychologie und Robotik. Die Interaktion und das Verhalten der Maschinen nach menschlicher Vorlage zu gestalten, ist für beide Disziplinen von Interesse. Im Kontext der Entwicklung einer ausreichenden Interaktion zwischen der Maschine und dem Menschen, wäre es interessant zu erforschen, welche sozialen Merkmale detektiert werden müssten, zum Beispiel im Spektrum der Mimik. Darüberhinaus ermöglicht die Recognize-Pipeline ein Ansatz, die Interaktion über das Kamerabild hinaus zu verfolgen. Dadurch kann der Roboter das Gesicht mit vergangenen Interaktionen assoziieren und dem entsprechend agieren. Allerdings bedarf die Pipeline-Struktur weiterer Arbeit. So werden bestehende Datenbanken über ein Gesicht nicht mit neuen Bildern erweitert, so fern sie notwendig sind. Auch kann keine automatische Korrektur erfolgen, falls fehlerhafte Informationen in die Datenbank gelangen. So kann es vorkommen, dass das selbe Gesicht zwei unterschiedliche IDs erhält, wenn das Gesicht nicht wiedererkannt wird. Auch können sehr ähnliche Gesichter zusammenfallen zu einer ID. Solche Fehler müssten für eine stabile Anwendung selbständig korrigierbar sein.
Seit 2005 beschäftige ich mich im Rahmen der Künstlergruppe "Farbraum" mit visuellen Installationen und live Video Performaces auf kulturellen Events. Dafür haben wir einzelne Video-Performance Applikationen entwickelt, die die Probleme einzelner Projekte lösen.Was uns bisher noch nicht gelang ist a) eine modulare Softwarearchitektur zu entwickeln und b) ein Werkzeug zur Entzerrung ebener Flächen, die nicht rechtwinklig projiziert werden, zu erstellen (unter der Annahme, dass Projektoren verwendet werden). Diese Arbeit beschreibt die Lösung des ersten Problems durch die Entwicklung eines modularen Frameworks und des zweiten Problems durch die Implementation eines benutzerfreundlichen Moduls zur Entzerrung von ebenen Flächen. Die Entzerrung findet komplett manuell statt, indem der Benutzer die Koordinaten der Flächeneckpunkte durch das Ziehen der Punkte mit der Maus verändert. Dabei werden die xund y-Werte der Eckpunkte verändert, der z-Wert bleibt konstant. Während auf diese Weise die 3D-Interaktion mittels eines 2D-Eingabegeräts verhindert wird, führt die ausschließlich zweidimensionale Transofrmation der Flächen zu unerwünschten Textur-Mapping Artifakten, die durch das Triangulierungs-basierte Rendern von Grafikkarten entstehen. Um diese Artifakte zu vermeiden, wird ein Verfahren names "adaptive Subdivision" vorgestellt, das die entsandenen Rendering-Fehler korrigiert.
Die Idee, die dieser Arbeit zugrunde liegt, ist es, die Augmented Reality auch in anderen Bereichen voranzutreiben. In der Filmindustrie beispielsweise behilft man sich schon seit langem mit sowohl virtuellen als auch realen Methoden (computergestützten Visualisierungen, Miniatur-Kulissen), um eine Vorvisualisierung der Dreharbeiten zu erhalten, welche zur Planung des Arbeitsablaufs verwendet werden können. Die Idee liegt hierbei darin, dass durch ein Werkzeug, welches sich der Augmented Reality bedient, zum Beispiel Belichtungsverhältnisse bereits im Voraus ausgetestet werden könnten, oder der Kameramann seine Einstellungen proben kann. So können hierfür mitunter virtuelle Objekte in eine Miniaturszene eingeblendet werden, mit denen die realen Voraussetzungen des Drehorts nachgeahmt werden. Um diese Vorstellung von einem Werkzeug für die Filmindustrie zu ermöglichen, wird ein gutes und stabiles Tracking benötigt, das die nötigen Eigenschaften zur Verfügung stellt. Um ein solches Trackingsystem geht es in dieser Studienarbeit.