Filtern
Augmented Reality erfreut sich wachsender Beliebtheit. Zusatzinformationen in HMDs, Windschutzscheiben oder im Kamerabild des Smartphones oder Tablets sind hier die nennenswertesten Anwendungsfälle. Um eine Einblendung korrekt anzuzeigen, ist es notwendig die Position und Orientierung (Pose) der Kamera im Raum zu erfassen. Dies geschieht zurzeit hauptsächlich unter Zuhilfenahme von Markern. Dabei werden vordefinierte Marker im Raum positioniert und das System angelernt, wie es diese zu interpretieren hat. Der nächste Schritt ist es ohne Marker auszukommen. Hierbei wird von dem markerlosen Tracking gesprochen. Anstelle von künstlichen Markern werden natürliche Objekte der realen Umgebung als Referenzpunkte genutzt, um die Kamerapose zu bestimmen. Dadurch lässt sich dieses Verfahren flexibel und dynamisch einsetzen. Es wird zwar auf die Zuhilfenahme von Markern verzichtet, aber ein größeres Vorwissen über die Szenerie ist notwendig. Dies wird über technische Maßnahmen realisiert und/oder durch Interaktion des Benutzers. Beides ist nicht komfortabel oder effizient in der Verwendung eines solchen Systems und ist ein Grund dafür, warum markerloses 3D-Tracking nach wie vor ein Forschungsbereich ist.
An diesem Punkt setzt diese Arbeit an. Es wird ein Ansatz vorgeschlagen, der lediglich eine Menge von 2D-Feature und eine Menge von 3D-Feature eines Objekts benötigt, um die initiale Pose zu finden. Es sind keine weiteren technischen Hilfen notwendig und auch auf die Interaktion mit dem Benutzer wird verzichtet. Die 2D-Feature, wie auch die 3D-Feature, können auf beliebige Art gewonnen werden.
Die Idee ist es, diese zwei Mengen mit sechs Korrespondenzen zu verbinden. Anhand dieser Korrespondenzen kann eine Pose geschätzt werden. Mit der erhaltenen Pose kann jedes 3D-Feature auf Bildkoordinaten abgebildet werden, wodurch sich die geschätzte Pose bewerten lässt. Dabei wird der Abstand zwischen abgebildetem 3D-Feature und seinem zugehörigen 2D-Feature gemessen. Jede Korrespondenz wird so bewertet und die Ergebnisse aufsummiert. Je niedriger die Summe, desto besser ist die Pose. Es hat sich gezeigt, dass ein Wert von zehn Pixeln bereits ausreichend ist, um eine Pose als richtig zu bewerten.
Da es sehr viele Möglichkeiten gibt, diese sechs Korrespondenzen zwischen beiden Mengen aufzubauen, muss dieses Verfahren optimiert werden. Dies geschieht mit einem genetischen Algorithmus. In dem Testszenario arbeitet das fertige System sehr zuverlässig. Es wird eine Trefferquote von ca. 90%, bei einer Laufzeit von ungefähr zwölf Minuten, erreicht. Ohne Optimierung kann das Finden der initialen Pose schnell mehrere Jahre dauern.