Spielen um Daten – TU-Informatiker gewinnen Beispieldaten für visuelles Szenenverstehen aus Computerspielen

Teilen

TU DarmstadtDas Verstehen visueller Szenen mit dem Computer ist ein wichtiger Baustein autonomer Fahrzeuge und intelligenter Assistenten. Die dabei eingesetzten Verfahren benötigen sehr große Mengen von Beispieldaten, um das Aussehen von Objekten unseres täglichen Umfelds zu lernen. Gewöhnlich müssen solche Beispieldaten zeitraubend von Hand aufgezeichnet werden. Forscher der TU Darmstadt haben in Kollaboration mit Intel Labs nun ein Verfahren entwickelt, das solche Daten mit deutlich geringerem Aufwand aus Computerspielen gewinnt. 

Das automatische Erkennen von Objekten einer visuellen Szene ist eine zentrale Aufgabe des maschinellen Verstehens von Bildern. Dabei soll ein Algorithmus nicht nur möglichst zuverlässig alle Objekte in einem Bild erkennen, sondern auch ihre Umrisse präzise markieren. Auf dieser Basis können beispielsweise autonom agierende Fahrzeuge und Roboter ihr Verhalten an ihr Umfeld anpassen und Menschen, Autos oder Hindernissen ausweichen.

Derzeitige Ansätze für das visuelle Szenenverstehen basieren auf maschinellen Lernverfahren, das heißt, der Algorithmus lernt aus Beispieldaten. Durch händisches Markieren von Objekten in Bildern bringt der Mensch dem Algorithmus bei, wie Dinge unseres Umfelds aussehen. Da die Markierungen möglichst präzise sein müssen, dauert das Erstellen dieser Annotierungen typischerweise 60 bis 90 Minuten pro Bild. Um möglichst viele Alltagssituationen abzudecken, werden in der Regel tausende solcher annotierten Bilder benötigt, was einen enormen Aufwand mit sich bringt.

Professor Stefan Roth und Doktorand Stephan Richter aus dem Fachbereich Informatik der TU Darmstadt haben nun zusammen mit Forschern von Intel Labs ein Verfahren entwickelt, welches die nötigen Beispieldaten aus kommerziellen Computerspielen gewinnt. Das Spiel liefert einerseits große Mengen sehr realistischer Bilder. Durch Aufzeichnen der Kommunikation zwischen dem Spiel und der Graphikkarte lässt sich das Annotieren durch den Menschen andererseits entscheidend vereinfachen.

Die Konturen der Objekte werden zunächst vollautomatisch aus dem Spiel extrahiert, was den Zeitaufwand bereits erheblich reduziert. Der Mensch muss lediglich die Art des Objekts identifizieren – zum Beispiel „Auto“ oder „Person“. Wenn dasselbe Objekt zu einem anderen Zeitpunkt oder an einem anderen Ort erneut erscheint, muss es nicht wieder markiert werden, was den Aufwand weiter verringert.

Um den Nutzen des Ansatzes zu illustrieren hat das Team knapp 25 Tausend Bilder aus dem populären Spiel „Grand Theft Auto V“ gewonnen. Die Annotierungen konnten mit Hilfe des neuen Verfahrens in nur 49 Stunden erstellt werden. Auf herkömmliche Art und Weise hätte eine einzige Person hingegen etwa zwölf Jahre benötigt. Trotz der rein synthetischen Natur der Daten können Algorithmen, die damit trainiert wurden, visuelle Szenen ähnlich gut analysieren wie nach dem Training mit herkömmlichen Daten. Die Erkennungsgenauigkeit lässt sich weiter steigern, indem kleine Mengen echter Daten durch große Mengen Spieledaten komplementiert werden.

Die TU-Forscher glauben, dass damit Forschern und Entwicklern in der künstlichen Intelligenz neue Wege offenstehen, robuste und präzise Ansätze zum visuellen Szenenverstehen zu entwickeln sowie neue Anwendungsfelder zu erschließen.

Quelle: TU Darmstadt


Teilen