Filtern
Dokumenttyp
- Studienarbeit (74) (entfernen)
Sprache
- Deutsch (74) (entfernen)
Schlagworte
- Robotik (8)
- Bildverarbeitung (5)
- Computergraphik (4)
- Augmented Reality (3)
- Augenbewegung (2)
- Autonomes Robotersystem (2)
- Computer (2)
- Computersimulation (2)
- Computerspiel (2)
- GLSL (2)
Institut
- Institut für Computervisualistik (74) (entfernen)
"MoleARlert" entstand im Rahmen eines Projektpraktikums der AG Computergrafik, unter Leitung Herrn Prof. Müllers und Herrn Dipl.-Inf. Stefan Rilling, im Wintersemester 2008/2009. Das System wurde von insgesamt zwölf Studierenden der Universität Koblenz-Landau entwickelt. Inhalt dieser Studienarbeit ist neben der Beschreibung des Systems vor allem die Veränderungen, die vom Autor nach Abschluss des Projektpraktikums, an diesem vorgenommen wurden unter besonderer Berücksichtigung der Neu- und Weiterentwicklungen die dazu führten die Reife des Systems zu verbessern. Ein weiterer wichtiger Aspekt der Arbeit ist die Einbindung einer Webkamera in eine 3D-Engine in Echtzeit.
Seit 2005 beschäftige ich mich im Rahmen der Künstlergruppe "Farbraum" mit visuellen Installationen und live Video Performaces auf kulturellen Events. Dafür haben wir einzelne Video-Performance Applikationen entwickelt, die die Probleme einzelner Projekte lösen.Was uns bisher noch nicht gelang ist a) eine modulare Softwarearchitektur zu entwickeln und b) ein Werkzeug zur Entzerrung ebener Flächen, die nicht rechtwinklig projiziert werden, zu erstellen (unter der Annahme, dass Projektoren verwendet werden). Diese Arbeit beschreibt die Lösung des ersten Problems durch die Entwicklung eines modularen Frameworks und des zweiten Problems durch die Implementation eines benutzerfreundlichen Moduls zur Entzerrung von ebenen Flächen. Die Entzerrung findet komplett manuell statt, indem der Benutzer die Koordinaten der Flächeneckpunkte durch das Ziehen der Punkte mit der Maus verändert. Dabei werden die xund y-Werte der Eckpunkte verändert, der z-Wert bleibt konstant. Während auf diese Weise die 3D-Interaktion mittels eines 2D-Eingabegeräts verhindert wird, führt die ausschließlich zweidimensionale Transofrmation der Flächen zu unerwünschten Textur-Mapping Artifakten, die durch das Triangulierungs-basierte Rendern von Grafikkarten entstehen. Um diese Artifakte zu vermeiden, wird ein Verfahren names "adaptive Subdivision" vorgestellt, das die entsandenen Rendering-Fehler korrigiert.
Die Ausgabe von immer echter und realistischer aussehenden Bildern auf Bildschirmen ist heute ein wichtiger Bestandteil in der Konzeption, Präsentation und Simulation von neuen Produkten in der Industrie. Trotz der auch immer physikalisch echter werdenden Grafiksimulationen ist man bei der Ausgabe auf Bildschirme angewiesen, die einen limitierenden Faktor darstellen: Leuchtdichten in Simulationen gehen dabei weit über tatsächlich darstellbare Leuchtdichten von Monitoren hinaus. Das menschliche Auge ist hingegen in der Lage, einen großen Dynamikumfang zu sehen, sich an gegebene Beleuchtungsverhältnisse anzupassen und auch kleinste Unterschiede in der Helligkeit einer Szene wahrzunehmen. Für die Ausgabe solcher High-dynamic-Range-Bilder auf herkömmlichen Monitoren müssen sogenannte Tonemappingverfahren jene Bilder auf den darstellbaren Bereich reduzieren. Manche dieser Verfahren bedienen sich dabei direkt der Physiologie des Auges, um eine realistische Ausgabe zu erzeugen, andere dienen eher zur Stilisierung. Ziel dieser Studienarbeit ist die Entwicklung eines Tonemappingverfahrens, das ein vertrauenswürdiges Ergebnis liefert. Ein solches Ergebnis ist erreicht, wenn der Betrachter keine Unstimmigkeiten im Bild vorfindet, die der Realität widersprechen. Der Gesamteindruck soll dem entsprechen, was der Nutzer sehen würde, stünde er direkt neben der aufgenommenen Szene. Für eine abschließende Evaluation wurde insbesondere eine reale Boxszene am Computer nachmodelliert und gerendert. Neben einem HDR-Foto kann damit der neu entstandene Tonemapping-Operator untersucht und mit bereits vorhandenen Tonemappingverfahren verglichen werden. 13 Probanden haben an dieser Evaluation teilgenommen, um die Leistungsfähigkeit und Qualität zu bewerten.
Für diese Studienarbeit können zwei Schwerpunkte genannt werden. Einerseits sollten verschiedene Verfahren zur Fluchtpunktschätzung aus Wissenschaft und Forschung eingänglich untersucht und erörtert werden. Dies im Hinblick auf ein detaillierteres Analyseverfahren, das die Möglichkeit bietet, mehrere Gebäudeseiten automatisiert entzerren zu können. Andererseits sollten sich die gewünschten Verbesserungen in das bereits vorhandene Gesamtsystem des Projekts Ornamente eingliedern, um so das Endergebnis der Klassifizierung von Ornamenten zu verbessern. Daraus entstanden die in Kapitel 1 genannten Hauptaufgaben. Neben dem TAM-Verfahren, dass im vorhandenen Teilprozess der Entzerrung bereits zum Einsatz kam, wurde in Kapitel 2 das Verfahren KHT nach Tuytelaars beschrieben. Ansätze der KHT waren im Bestehenden zu erkennen, wie sich während der anfänglichen Einarbeitung in das Themengebiet Fluchtpunktfindung und dem Gesamtsystem der Ornamentklassifizierung herausstellte. Allerdings waren einige Aspekte, wie sie von Tytelaars et al. in [TGPM98] zur KHT beschrieben sind, nicht enthalten. Der erste Lösungsansatz zur Entzerrung von mehreren Gebäudeseiten bestand darin, die KHT unabhängig von allen Prozessen des Gesamtsystems zu implementieren, um so die Genauigkeit der Fluchtpunktdetektion zu erhöhen. Mit dieser detaillierteren Fluchtpunktfindung sollte das bereits bestehende Modul der Entzerrung zu besseren Ergebnissen führen. Um die Entzerrung für sich alleine nutzen zu können, musste sie vorerst von der vorhandenen Fluchtpunktschätzung isoliert werden. Während der in Kapitel 3 beschriebenen Umstrukturierung und Trennung der beiden Prozesse wurde das eigentliche Problem der Verarbeitung von mehreren Gebäudeseiten erkannt. Nicht die Fluchtpunkte und die Verfahren für ihre Detektion sind ausschlaggebend, weitere Ebenen im Bild erkennen zu können. Vielmehr verhindert dies der fehlende Rückschluss von extrahierten Kanten auf die Lage, Größe und Anzahl der im Bild vorhandenen Gebäudeseiten. Wären hierzu Informationen bekannt, könnten, wie auch für ornamentale Bereiche, ROIs festgelegt werden, die mit einer hohen Wahrscheinlichkeit eine abgegrenzte Gebäudeseite beinhalten. Um diese daraufhin zu entzerren, kann das jetzt isolierte Programm zur Entzerrung genutzt werden. Die KHT umzusetzen, wurde als Lösungsweg verworfen und der eigene Lösungsansatz "Level of Detail" aus Kapitel 3 wurde entwickelt. Die entstandenen Programme wurden wie gefordert in PUMA, der "Programmierumgebung für die Musteranalyse" eingebunden. Wie die Test aus Kapitel 4 jedoch zeigen, konnte damit keine Verbesserung erzielt werden.
Die moderne Bildgebung in der Medizin arbeitet oft mit Daten höheren Tonwertumfangs. So haben beispielsweise Bilder aus CT-Geräten einen Dynamikbereich von 12 Bit, was 4096 Graustufen entspricht. Im Bereich der photorealistischen Computergrafik und zunehmend in der Bildverarbeitung sind Bilddaten viel höheren Tonwertumfangs üblich, die als HDR-Bilder (High Dynamic Range) bezeichnet werden. Diese haben eine Bittiefe von 16, oftmals sogar 32 Bit und können dadurch sehr viel mehr Informationen speichern, als herkömmliche 8-Bit-Bilder. Um diese Bilder auf üblichen Monitoren darstellen zu können, muss man die Bildinformation auf den Tonwertumfang des Ausgabegerätes abbilden, was man als Tonemapping bezeichnet. Es existieren zahlreiche solcher Tonemapping-Verfahren, die sich durch ihre Arbeitsweise, Geschwindigkeit und visuelle Qualität unterscheiden lassen. Im Rahmen dieser Studienarbeit sollen Tonemapping-Verfahren auf medizinische Bilddaten angewendet werden. Dabei soll sowohl die visuelle Qualität, als auch die Geschwindigkeit im Vordergrund stehen.
Das sichere Befahren von komplexen und unstruktierten Umgebungen durch autonome Roboter ist seit den Anfängen der Robotik ein Problem und bis heute eine Herausforderung geblieben. In dieser Studienarbeit werden drei Verfahren basierend auf 3-D-Laserscans, Höhenvarianz, der Principle Component Analysis (PCA) und Tiefenbildverarbeitung vorgestellt, die es Robotern ermöglichen, das sie umgebende Terrain zu klassifizieren und die Befahrbarkeit zu bewerten, sodass eine sichere Navigation auch in Bereichen möglich wird, die mit reinen 2-D-Laserscannern nicht sicher befahren werden können. Hierzu werden 3-D-Laserscans mit einem 2-D-Laserscanner erstellt, der auf einer Roll-Tilt-Einheit basierend auf Servos montiert ist, und gleichzeitig auch zur Kartierung und Navigation eingesetzt wird. Die einzeln aufgenommenen 2-D-Scans werden dann anhand des Bewegungsmodells der Roll-Tilt-Einheit in ein emeinsames 3-D-Koordinatensystem transformiert und mit für die 3-D-Punktwolkenerarbeitung üblichen Datenstrukturen (Gittern, etc.) und den o.g. Methoden klassifiziert. Die Verwendung von Servos zur Bewegung des 2-D-Scanners erfordert außerdem eine Kalibrierung und Genauigkeitsbetrachtung derselben, um zuverlässige Ergebnisse zu erzielen und Aussagen über die Qualität der 3-D-Scans treffen zu können. Als Ergebnis liegen drei Implementierungen vor, welche evolutionär entstanden sind. Das beschriebene Höhenvarianz-Verfahren wurde im Laufe dieser Studienarbeit von einem Principle Component Analysis basierten Verfahren, das bessere Ergebnisse insbesondere bei schrägen Untergründen und geringer Punktdichte bringt, abgelöst. Die Verfahren arbeiten beide zuverlässig, sind jedoch natürlich stark von der Genauigkeit der zur Erstellung der Scans verwendeten Hardware abhängig, die oft für Fehlklassifikationen verantwortlich war. Die zum Schluss entwickelte Tiefenbildverarbeitung zielt darauf ab, Abgründe zu erkennen und tut dies bei entsprechender Erkennbarkeit des Abgrunds im Tiefenbild auch zuverlässig.
Szeneneditor für ein Echtzeitanimationssystem und andere XML konfigurierte und erweiterbare Systeme
(2006)
In dieser Arbeit werden jeweils ein Verfahren aus den beiden Bereichen der Bildregistrierung implementiert und beschrieben. Eine direkte und eine merkmalsbasierte Methode werden verglichen und auf ihre Grenzen hin überprüft. Die implementierten Verfahren funktionieren gut und registrieren beide verschiedene Bildserien subpixelgenau. Bei der direkten Methode ist vor allem die Wahl des Transformationsmodells ausschlaggebend. Auch das Einbetten der Methode in eine Gaußpyramidenstruktur hat sich als wichtig herausgestellt. Da die merkmalsbasierte Methode aus verschiedenen Komponenten aufgebaut ist, kann jeder einzelne Schritt durch unterschiedliche Verfahren ausgetauscht werden, so z.B. die Detektion der Merkmale durch Tomasi-Kanade, SIFT oder Moravec. In der direkten Methode kann die Genauigkeit der Ergebnisse zum einen durch den gewählten Schwellwert und zum anderen durch die Anzahl der Pyramidenstufen beeinflusst werden. Bei der merkmalsbasierten Methode wiederum können unterschiedlich viele Merkmale benutzt werden, die einen unterschiedlich hohen Schwellwert besitzen können. Es wird gezeigt, dass beide Methoden zu guten Ergebnissen führen, wenn davon ausgegangen wird, dass die Verschiebung sowie die Rotation gering sind. Bei stärkeren Veränderungen jedoch wird die direkte Methode recht ungenau, während die merkmalsbasierte Methode noch gute Ergebnisse erzielt. An ihre Grenze gerät sie erst, wenn entweder der Bildinhalt sich stark ändert, oder die Rotationen einen Winkel von 20° überschreitet. Beide Verfahren arbeiten also subpixelgenau, können aber unter verschiedenen Voraussetzungen zu Ungenauigkeiten führen. Werden die jeweiligen Probleme der beiden Methoden beachtet und am besten bei der Aufnahme oder vor der Registrierung eliminiert, so können sehr gute Ergebnisse erzielt werden.
Die Studienarbeit analysiert mit Hilfe einer erweiterten Balancetheorie die Relationen des Roboters zu den Personen im Kamerabild und den Personen untereinander. Es wurde gezeigt, dass die Abstraktion der Balancetheorie auf eine konkrete Anwendung übertragen werden kann. Allerdings muss die Theorie erweitert und teilweise eingeschränkt werden, um sie flexibler, aber gleichzeitig passend zur Anwendung zu gestalten. Dadurch wird die theoretische Grundlage, auf der die Arbeit beruht, ebenfalls verändert. Damit diese Modifikationen nicht den Rahmen der psychologischen Grundlage verlassen, müssen sie wiederum mit psychologischen Mitteln untersucht werden. Das würde allerdings den Umfang dieser Arbeit überschreiten, aber bietet ein Ansatz für eine interdisziplinäre Zusammenarbeit der Psychologie und Robotik. Die Interaktion und das Verhalten der Maschinen nach menschlicher Vorlage zu gestalten, ist für beide Disziplinen von Interesse. Im Kontext der Entwicklung einer ausreichenden Interaktion zwischen der Maschine und dem Menschen, wäre es interessant zu erforschen, welche sozialen Merkmale detektiert werden müssten, zum Beispiel im Spektrum der Mimik. Darüberhinaus ermöglicht die Recognize-Pipeline ein Ansatz, die Interaktion über das Kamerabild hinaus zu verfolgen. Dadurch kann der Roboter das Gesicht mit vergangenen Interaktionen assoziieren und dem entsprechend agieren. Allerdings bedarf die Pipeline-Struktur weiterer Arbeit. So werden bestehende Datenbanken über ein Gesicht nicht mit neuen Bildern erweitert, so fern sie notwendig sind. Auch kann keine automatische Korrektur erfolgen, falls fehlerhafte Informationen in die Datenbank gelangen. So kann es vorkommen, dass das selbe Gesicht zwei unterschiedliche IDs erhält, wenn das Gesicht nicht wiedererkannt wird. Auch können sehr ähnliche Gesichter zusammenfallen zu einer ID. Solche Fehler müssten für eine stabile Anwendung selbständig korrigierbar sein.