KITTI Vision Benchmarks

Autonome Fahrzeuge müssen ihre Umgebung zuverlässig erkennen, um sicher unterwegs zu sein. Prof. Dr.-Ing. Andreas Geiger, Leiter der Arbeitsgruppe für Autonomes Maschinelles Sehen und des Fachbereichs Informatik an der Eberhard Karls Universität Tübingen, erklärt, wie die Datensätze KITTI und KITTI-360 mit realen Straßenszenen und präzisen Labels die Forschung zu selbstfahrenden Autos weltweit beschleunigt haben. Sie ermöglichen nicht nur das Training smarter Algorithmen, sondern auch objektive Vergleiche in unabhängigen Benchmarks.

1. Worum geht es in den Projekten KITTI und KITTI-360?

Andreas Geiger: Autonome Fahrzeuge müssen ihre Umgebung präzise erfassen, um die richtigen Handlungen abzuleiten. Sie müssen zum Beispiel Abstände und Bewegungen richtig einschätzen und Objekte erkennen. Um die dafür nötigen Algorithmen zu trainieren, stellt KITTI Daten aus realen Straßenszenen mit der dazugehörigen Grundwahrheit (also die echte Geometrie, Bewegung und Objektklassifizierung) zur Verfügung. Das Besondere ist die Möglichkeit für Forschende, die eigenen Algorithmen mit unabhängigen Benchmarks auf einem externen Webserver zu vergleichen und so objektiv beurteilen zu können.

2. Inwiefern haben diese Projekte die Forschung zum autonomen Fahren und zu Fahrassistenzsystemen weltweit verändert?

Andreas Geiger: Unsere Datensätze und Benchmarks haben die Forschung zum autonomen Fahren weltweit massiv beschleunigt: Fehlerraten in Benchmarks sanken stark, autonomes Fahren wurde in der Computer-Vision-Community vom Rand- zum Topthema. Auch die interdisziplinäre Verzahnung hat das angeregt, was für die Entwicklung von „Physical AI“ hochrelevant ist. Die KITTI Datensätze wurden über 10 Millionen mal heruntergeladen, mehr als 100.000 Forschende nutzten die Benchmarks. Heute zählen sie zu den wichtigsten Referenzen in Computer Vision und Robotik.

3. Was bedeuten die farbigen Markierungen auf diesen Ansichten vom Straßenverkehr und warum sind sie für wichtig?

Andreas Geiger: Die Farben im ersten Bild zeigen, welche Pixel zu welchen Objektklassen gehören – das nennt man semantische Segmentierung. Zusätzlich werden einzelne Objekte innerhalb einer Klasse getrennt markiert, z. B. jedes Auto separat (Instanzsegmentierung). Diese Label gibt es auch in 3D-Punktwolken aus Kamera- und Lidardaten, die dann anhand ihrer semantischen und Instanz-Labels eingefärbt werden. Die Grundwahrheit für die Färbung wurde mit einem semi-automatischen Annotations-Algorithmus erstellt, d. h. echte Personen prüfen und korrigieren die Ergebnisse der Algorithmen. Später kann die Software Objekte, Grenzen und Abstände präzise erfassen. Das bildet die Grundlage für Planung und Fahrzeugsteuerung.

4. Welche nächsten Schritte oder Herausforderungen sehen Sie für KI-gestützte Wahrnehmung im Straßenverkehr?

Andreas Geiger: Eine zentrale Herausforderung ist der „Long Tail“: Häufige, eher langweilige Szenen sind gut abgedeckt, seltene Sonderfälle aber kaum. Dabei sind sie für das Training robuster autonomer Systeme entscheidend. KITTI, KITTI‑360 und Nachfolger können hier als Basis für synthetische Daten dienen: Reale Szenen werden in 3D rekonstruiert, aus neuen Blickwinkeln gerendert und mit generativen Modellen zu seltenen Situationen wie Beinaheunfällen variiert, die in echten Daten nur sehr selten vorkommen.

Zurück