Face2Face: Forscher lassen Wladimir Putin Grimassen schneiden

Projekt "Face2Face" Forscher lassen Politiker Grimassen schneiden

Stanford · Längst nicht alles, was in Videos und Filmen zu sehen ist, muss auch echt sein. Ein deutsches Forscherteam macht dabei jetzt den nächsten Schritt - und verändert im Nachhinein täuschend echt die Gesichtsausdrücke von Menschen. Wir haben mit einem der Wissenschaftler gesprochen.

27.04.2016 , 19:04 Uhr

Mit der Software, die das Team von Matthias Nießner entwickelt, lassen sich beliebige Gesichtsausdrücke auf andere Gesichter übertragen - und das in Videoform.
Foto: Screenshot / Matthias Nießner / Youtube

Russlands Präsident Wladimir Putin im Fernseh-Interview in den Spätnachrichten. Gerade will er einen ihm wichtigen Punkt erläutern. Plötzlich verzieht er das Gesicht, reißt die Augen auf. Nur Momente später runzelt er die Stirn und grinst dann breit in die Kamera. Nur eine Animation, aber täuschend echt umgesetzt - mit der Technik, an der das Team von "Face2Face" arbeitet. Nur durch Software animiert. Dass das theoretisch heute schon im echten Fernsehen möglich wäre, zeigt ein Video des Projekts, das derzeit durch das Internet geistert. Darin verzieht nicht nur Wladimir Putin das Gesicht, sondern auch Donald Trump oder George W. Bush.

"Facial Reenactment" heißt die Technologie hinter dem Projekt "Face2Face", zu Deutsch etwa: das Nachbilden von Gesichtsausdrücken. Grundlage sind zwei Videos: ein Quellvideo - hier ein Student, der das Gesicht verzieht - und ein Zielvideo, zum Beispiel ein Fernsehinterview eines Politikers. In beiden Videos erkennt die Software die Gesichtszüge und wie sie sich beim Sprechen oder Rumblödeln verändern.

Der Clou: Das, was im Quellvideo passiert, also wie der Student sein Gesicht verzieht, kann mit "Face2Face" täuschend echt auf das andere Video übertragen werden - ganz ohne aufwändiges Studios und 3D-Kameras, wie sie etwa bei Filmproduktionen verwendet werden. Und schon guckt George W. Bush ziemlich doof aus der Wäsche.

Das Team des Projekts besteht aus fünf Köpfen: Justus Thiel und Marc Stamminger von der Universität Erlangen-Nürnberg, Michael Zollhöfer und Christian Theobalt vom Max Planck Institute for Informatics und Matthias Nießner, Visiting Assistant Professor an der US-Elite-Universität Stanford. Kennengelernt haben sie sich alle in Erlangen. Mit Matthias Nießner haben wir per Skype-Interview gesprochen.

Herr Nießner, wofür entwickeln Sie "Face2Face"?

Matthias Nießner aus der Nähe von Erlangen forscht an der US-Eliteuni in Stanford.
Foto: Matthias Nießner

Matthias Nießner: Mit unserer Forschung richten wir uns vor allem an die Filmindustrie. Selbst im Englischen werden die Filme erst aufgenommen und dann nachvertont. Die Schauspieler müssen also erst vor die Kamera, danach müssen sie den Ton noch einmal separat aufnehmen, und dann muss das Ganze irgendwie synchronisiert werden. Das ist schon aufwendig. Noch einmal schwieriger wird es aber, wenn man das Ganze auch noch ins Deutsche übersetzt. Dann passen die Lippenbewegungen nicht mehr zur Sprache. Bei aufwendigen Produktionen werden zwar schon Leute angestellt, die versuchen, die Übersetzung an die Lippenbewegung anzupassen. Das verändert aber natürlich den Inhalt. Dieses Problem wollen wir lösen.

Das heißt es könnte sein, dass George Clooney in Zukunft auch mit den Lippen komplett Deutsch spricht — und nicht nur der Ton Deutsch ist?

Nießner: Das ist die Idee. Wir wollen versuchen, dass es sehr realistisch aussieht. Da ich in den USA lebe, bekomme ich es sehr stark mit, wie viel natürlicher Filme hier im englischen Originalton wirken als in der deutschen Übersetzung. Vor allem bei Serien, die ins Deutsche übersetzt werden, sieht das häufig sehr unrealistisch aus. Und wenn es realistisch aussieht, dann steckt da sehr viel manuelle Arbeit hinter. Wir wollen versuchen, dass dieser Prozess automatisiert wird.

Können Sie sich noch einen anderen Anwendungsfall für Ihre Technologie vorstellen?

Nießner: Ja, zum Beispiel in Videotelefonaten. Microsoft arbeitet ja derzeit an Echtzeit-Übersetzungen für Skype. Die Idee dabei: Wir sprechen zwar verschiedene Sprachen, aber Skype übersetzt das, was wir sagen jeweils in Echtzeit in die Sprache des Gegenübers. Bei der Übersetzung vom Englischen ins Deutsche funktioniert das noch ganz gut, im Chinesischen sind die Laute und Lippenbewegungen aber zum Beispiel völlig andere. Mit unserer Forschung könnten Videotelefonate in Zukunft nicht nur in Echtzeit übersetzt werden, sondern es könnte sogar so aussehen, als würde das Gegenüber die Lippen passend dazu bewegen.

Wieso ist denn vor Ihnen noch niemand auf die Idee gekommen?

Nießner: Das ist technisch nicht so einfach. Die Gesichtserkennung muss sehr genau sein, denn darin sind wir selbst sehr gut. Darauf sind wir seit Geburt trainiert worden: Gesichter erkennen, Feinheiten feststellen und Unterschiede aufdecken. Man muss also eine sehr hohe visuelle Messlatte erreichen, damit es gut aussieht. Die 3D-Rekonstruktion muss sehr schnell und detailliert sein, jeder Pixel muss angepasst werden, damit es synchron ist, und auch die Beleuchtung muss stimmen.

Die Videos, mit denen Sie den Effekt Ihrer Forschung zeigen, verändern die Gesichtsausdrücke von Politikern, von George W. Bush bis Donald Trump. Was wollten Sie damit genau zeigen?

Nießner: Wir hätten den Effekt mit jedem beliebigen Youtube-Video zeigen können, aber natürlich haben wir bewusst Politiker gewählt. In Filmen werden synthetische Bilder zwar seit 30 Jahren verwendet, aber ich glaube es ist den Leuten nicht ganz bewusst, wie viel von Filmen eigentlich mittlerweile nicht mehr real ist. Wir wollen einen Hinweis liefern: Es ist nicht so schwierig, synthetisches Bildmaterial zu liefern, das gut aussieht und das man dann auch für Videos verwenden kann.

Haben Sie ein Beispiel?

So ziemlich alles im Film "Avatar" ist animiert, nicht nur die blauen Figuren.

Foto: ap

Nießner: Nehmen wir den Film "Avatar". Dabei ist relativ klar, dass die blauen Charaktere alle nicht echt, sondern synthetisch generiert sind. Den meisten Leuten ist aber vermutlich nicht klar, dass der komplette Wald mit allen Bäumen und eigentlich alles außer den Gesichtern der Schauspieler komplett animiert ist. Natürlich braucht man für Filme noch viel Technik und es kostet dort auch noch sehr viel Geld, aber wir jetzt zeigen jetzt, dass das auch mit ganz normalen Videos möglich ist. Effektiv besteht jedes Video aus Bits und Bytes und wenn man will, kann man die Bits und Bytes verändern. Die Frage ist nur, wie einfach das ist. Und mittlerweile ist es eben nicht mehr so schwierig.

Wenn so eine Software wie Ihre in Zukunft vielleicht sogar in Echtzeit funktioniert und nicht nur in Kinoproduktionen am Werk ist: Können wir unseren Augen dann überhaupt noch trauen?

Nießner: Was digitale Videos angeht, sind diese Zeiten schon lange vorbei. Schon wenn man ein Video schneidet, kann man Teile auslassen und so den Inhalt komplett verändern. Ähnlich ist es ja auch mit Bildern und Photoshop. Jeder, der ein Magazin liest, weiß, dass die Fotos auf den Titelseiten aufgehübscht wurden. Dasselbe gilt aber eben auch für Videos. Das ist eine wichtige Botschaft, die wir senden wollen.

Gibt es eine Lösung für dieses Problem?

Nießner: Ja. Unsere Software kann umgekehrt auch dafür verwendet werden, Veränderungen in Videos festzustellen. Dazu untersuchen wir die Beleuchtung. Ist diese bei bestimmten Objekten im Video nicht konsistent, also gleichbleibend, kann man das in der Software sehen und wir wissen: Das ist wahrscheinlich nicht mehr das reale Video. Wobei wir da noch nicht am Ende mit der Entwicklung sind: Aktuell können wir zwar feststellen, ob ein Video echt ist oder nicht, aber wir können noch nicht feststellen, welche Objekte im Video das genau betrifft.

Das ist ja gerade für Journalisten interessant, wenn wir als Redaktion feststellen wollen, ob bestimmtes Videomaterial echt ist oder nicht. Das wirft die Frage auf: Wie viele Interessenten sind schon auf Sie zugekommen, um Ihr Projekt zu kaufen?

Nießner: Viele (lacht). So ist es wohl, wenn man im Silicon Valley ist. Sehr viele Investoren kommen direkt auf einen zu, auch viele große Firmen. Wir haben über zwei Millionen Klicks auf Youtube, vielleicht ein halbes Prozent der Zuschauer schreibt uns an. Das sind doch relative viele E-Mails, die man bekommt. Viele finden einfach gut, was wir machen. Viele sind aber auch sehr konkret, mit Geschäftsideen und Plänen für eine Kommerzialisierung. Aber wir sind Forscher. Wir haben noch kein fertiges Produkt. Wir überlegen uns aber definitiv, ob wir etwas daraus machen wollen. Perspektivisch vielleicht auch im Bereich Virtual Reality - damit ich in einem virtuellen Meeting nicht mehr sehe, dass der andere eine 3D-Brille trägt, sondern stattdessen sein Gesicht.

Hier geht es zum Projekt "Face2Face".