Deep Fakes - Woran man Fake-Bilder erkennen kann
Eine (relativ) neue Art neuronaler Netze, sogenannte Generative Adversarial Networks (zu deutsch etwa ‚erzeugende gegnerische Netzwerke’) oder GANs, sind heutzutage in der Lage, täuschend echte Bilder von Menschen zu erzeugen, die es gar nicht gibt. Diese Fake Bilder sind auf den ersten Blick von echten Fotos nicht mehr zu unterscheiden – aber zum Glück auf den zweiten Blick schon.
Auf http://www.whichfaceisreal.com/ kann man sich anschauen, wie gut diese Ergebnisse sind und in einem Quiz testen, ob man gefälschte und echte Fotos auseinanderhalten kann, ohne auf Kniffe wie die Google Bilder Rückwärtssuche zurückzugreifen.
Kennt man sich mit der zugrundeliegenden Technologie aus, ist es nach einigem Üben (noch) relativ leicht, gefälschte von echten Fotos zu unterscheiden. Für den Laien wird dies aber zunehmend schwerer. Im „postfaktischen Zeitalter” voll digitaler Fehlinformation, Verschwörungstheorien und Fake News über Facebook wird es aber ein zunehmender Teil der Medienkompetenz, solche Deepfakes zu erkennen. Daher wollen wir hier anhand von Beispielen erläutern, woran man computergenerierte Bilder zur Zeit erkennt.
Dabei kann man gleich noch etwas über die Funktionsweise aktueller neuronaler Netze lernen.
Aber eins vorneweg: Die Technologie in diesem Bereich schreitet rasant voran – es ist durchaus möglich, dass künftig einige der hier beschriebenen Handicaps von GANs (oder einer ganz anderen, neuen Technologie) gelöst werden.
Fragmente ohne Kontext – KI und ihre Schwächen
Wichtigste Regel für das Erkennen von generierten Bildern (oder auch Texten, Sprache oder Videos) ist, dass wir uns einen Moment Zeit nehmen, durchatmen und genau hinschauen (was generell beim Medienkonsum empfehlenswert ist).
Um einige Ideen zu bekommen, wie wir eine KI „erwischen“ können, erinnern wir uns kurz daran, was die Schwächen aktueller KI sind. Aktuelle KI ist keine „starke“ KI. Sie hat also keinerlei Weltwissen, gesunden Menschenverstand, ich-Bewusstsein, etc. Sie „weiß“ nicht, was sie tut. Sie „weiß“ nicht einmal, was ein Gesicht, ein Mensch, oben, unten, links, rechts, eine Brille oder ein Ohr ist. Die KI hat nur Dinge „gelernt“, für die sie tausende, besser sogar Millionen Beispiele gesehen hat, da sie im Gegensatz zum Menschen nicht generalisieren kann. Diese einzelnen Elemente, wie beispielsweise Gesichtsmerkmale, versucht sie möglichst echt nachzuahmen. (Was schon sehr, sehr gut gelingt)
Dazu ist es nützlich zu wissen, wie eine spezielle Art von neuronalem Netz funktioniert – die sogenannten CNNs (Convolutional Neural Networks oder ConvNet). Diese sind aktuell State-of-the-Art, wenn es darum geht, Bilder zu verarbeiten oder zu erzeugen. Dabei müssen wir gar nicht ins Detail gehen, es reicht zu wissen, dass diese Netze keine Vorstellung der dreidimensionalen Welt entwickeln. CNNs “lernen” lediglich Unmengen von Fragmenten (Texturen) und entwickeln eine Intuition, wie diese Schnipsel aneinander geklebt und interpoliert (gemischt) werden können. Sie haben allerdings keine “Vorstellung” von einem kompletten oder endgültigen Bild.
Welches Gesicht ist echt? – 4 Beispiele
Mit diesem Hintergrundwissen gewappnet, versuchen wir den Bild-Fälschungen auf die Schliche zu kommen. (Alle folgenden Beispiele sind von www.whichfaceisreal.com)
Welche Person ist also in den folgenden Beispielen jeweils echt?
Beispiel Nr. 1: Texturen statt Objekte bei der Bildgenerierung
Beide Bilder wirken auf den ersten Blick sehr echt, aber schaut man genauer hin, sehen einige Dinge auf dem zweiten Bild merkwürdig aus:
- Der Hintergrund sieht zwar „echt“ aus, man kann aber nicht sagen, was für ein Objekt es sein soll.
- Der Rand zwischen den Haaren des Kindes und dem Hintergrund sieht aus, als wäre Farbe verlaufen.
- Die Zähne des Kindes sind ziemlich krumm.
Auf dem Bild der drei Frauen lassen sich dagegen keinerlei Auffälligkeiten erkennen.
Wir lösen auf: Das Bild mit dem Kind ist künstlich, das mit den Frauen echt.
Der problematische Hintergrund bei dem Kinderbild rührt daher, dass aktuell neuronale Netz Unmengen an Beispielen brauchen, um eine Sache zu lernen. Da gerade Hintergründe in Bildern keinerlei Muster folgen, tun sich die Netze hier mit realistischen Imitationen schwer. Kurz gesagt: Gesichter haben viele Gemeinsamkeiten, Hintergründe oft nicht.
An den Zähnen und an der Kante zwischen Hintergrund und Haaren erkennt man, dass das CNN mit Texturen arbeitet, anstatt „geometrisch“ zu denken. Es „weiß” nicht, dass Zähne nicht aneinander kleben können – dennoch gehen der obere und untere Schneidezahn in dem Foto ineinander über und haben keine klare Kante.
Übrigens: Ist Ihnen das Kinn des Kindes aufgefallen?
Das Bild der drei Frauen ist (noch) gut als echt zu erkennen: Haare und Hintergrund sind klar zu unterscheiden. Der Ohrring der Frau rechts hat eine eindeutige, realistische Form. Und besonders wichtig: Es sind mehrere Menschen im Bild! Neuronale Netze können nicht zählen – ein Neuronales Netz, welches Bilder von einer Person erzeugen kann, kann nicht Bilder von zwei Personen erzeugen. Es müsste erneut auf Millionen Bildern von zwei Personen trainiert werden. Dann könnte es aber nicht Bilder von drei Personen erzeugen, etc.
Beispiel Nr. 2: Fehlende Details in computergenerierten Bildern
Schauen wir uns das Bild der asiatischen Frau an. Hier haben wir auch einen nicht eindeutigen Hintergrund, allerdings ist dieser so unscharf, dass es sich durchaus einfach um ein Bild im grünen mit großem Abstand zum Hintergrund handeln kann. Dies hilft uns diesmal also nicht weiter.
Wir können allerdings sehr gut einzelne Haare erkennen, das ist ein starkes Zeichen, dass das Bild echt ist. Ein Convolutional Neural Network weiß nicht, was ein Haar ist, und hat Probleme, einzelne Haare auf beliebigem Hintergrund zu erzeugen, da es jedes mal neu lernen müsste: Haar vor grünem Hintergrund, Haar vor Tapete, …
Ein deutliches Zeichen dafür, dass das Bild echt ist, ist der Mund der Frau: er steht leicht offen, wir können anatomisch korrekte Zähne und eine Zunge erkennen. Ein CNN weiß nicht, wie es in einem Mund aussieht – es würde nie auf die „Idee“ kommen, Füllungen in die Zähne zu machen.
Der klar zu erkennende Ohrstecker und die realistischen Falten im Stoff des blauen Pullovers sind dann endgültige Argumente, dass das Foto (höchstwahrscheinlich) echt ist.
Das Gesicht der Frau im zweiten Beispiel ist schon fast perfekt, das Bild geht beinahe als echt durch. Die Zähne sind anatomisch glaubwürdig, die Haare sehen sehr realistisch aus und der Hintergrund ist einfarbig – keine Hinweise. Allerdings sehen wir, dass ein zweites Gesicht ins Bild ragt – und hier sieht man schon beim ersten Hinsehen, dass dieses auf keinen Fall echt sein kann – denn wie bereits erwähnt: Nur weil ein Convolutional Neural Network ein Gesicht erzeugen kann, kann es lange nicht auf mehrere Gesichter verallgemeinern – weil es nicht weiß, was ein Gesicht ist. Ein weiteres deutliches Indiz ist der Ohrring, bei dem sich beim genauen Hinsehen keine genaue Form erkennen lässt – außerdem ist kein Loch im Ohrläppchen und kein Haken, Hänger oder Clip zu sehen – was hält den Ohrring?
Beispiel Nr. 3: Fake-Bilder anhand des Ausschlussprinzips erkennen
Dieses Beispiel ist besonders knifflig, die Fälschung fast nur zu erkennen, weil das echte Foto so eindeutig echt ist. Wir haben gelernt, dass Kanten, Hintergründe, Münder und Accessoires gute Hinweise sind. Die Frau mit der roten Mütze ist mit Sicherheit echt:
- Die Brille ist plausibel, aber an einem ungewöhnlichen Ort – ein CNN kann noch nicht „verstehen“, dass Brillen Gegenstände sind, die nicht unbedingt auf der Nase sitzen.
- Die Ohrringe sind beide gleich und definitiv im Ohrläppchen befestigt.
- Der Hintergrund ist realistisch, es ist unscharf eine realistisch proportionierte Person zu sehen.
- Die Zähne sind realistisch.
Da das erste Foto auf jeden Fall echt ist, muss das zweite falsch sein – aber wie können wir das erkennen?
Der Hintergrund ist hell, einfarbig und gibt uns folglich keinen Hinweis. Die Zähne haben keine Auffälligkeiten. Da der Hintergrund hell ist, sind einzelne Haarsträhnen keine Spur.
Es gibt aber noch drei verräterische Hinweise:
- Rechts oben sind zwei Farbklekse, die aussehen wie Zellen unter einem Mikroskop – diese Art von Artefakt rutscht aktuellen neuronalen Systemen noch manchmal raus.
- Die Wimpern der Frau sehen unscharf aus, das Schwarz verschmiert auf den Augenlidern. Dies könnte auch verschmiertes Make-Up sein, aber bei genauem Hinsehen ist zu erkennen, dass die Wimpern auf die Haut gezeichnet scheinen. Hier ist eine „Wimperntextur“ mit einer „Augenlidtextur“ verschmolzen.
- Die Spitze der Nase ist übermäßig stark beleuchtet, die gesamte Nase wirkt übermäßig scharf im Vergleich zum Rest des Bildes.
Beispiel Nr. 4: Hier braucht man fast eine Lupe
Hier kann man nur mit größter Mühe das Fake Foto erkennen. Wäre auf dem Bild des jungen Mannes nicht wieder ein „Zellenartefakt“ (rechts oben), wäre es praktisch unmöglich. Mit viel Mühe fällt auf, dass
- das von uns aus linke untere Augenlid eine leichte „Delle“ hat,
- der Kragen des Hemdes rechts unten hat leicht „ölige“ Farben hat,
- der Hals auf der einen Seite eine viel schärfere Kante als links hat,
- das Zahnfleisch auf der rechten Seite zu weit auf den Backenzahn hinausragt.
Aber all dies ist nur noch zu erkennen, wenn man sehr nah an das Bild herangeht.
Die eindeutigen Ohrringe und die Musterung auf dem Träger des Oberteils helfen uns zum Glück, das Bild der Frau als echt zu erkennen – so können wir den jungen Mann tatsächlich ausschließen.
Checkliste – Fake Fotos enttarnen
Gerade das letzte Beispiel hat gezeigt, wie schwer es bereits heute ist, solche gefälschten Bilder zu erkennen. Es ist zu erwarten, dass auch die hier aufgeführten Hinweise mit der Zeit nicht mehr helfen werden.
Um KI-Fakes zu erkennen, kann die folgende Checkliste helfen:
- Kleine, für Menschen selbstverständliche Details: Sehen beide Ohrringe gleich aus? Stimmt die Anzahl der Schneidezähne? Ist das eine realistische Brille?
- Rangabzeichen, Muster auf Kleidung sind für KIs sehr schwer zu fälschen: Sieht die Kleidung realistisch aus? Verlaufen Nähte an Hemden plausibel?
- Kanten und Übergänge tendieren bei KI-Bildern dazu, miteinander zu „verschwimmen“, an anderen Stellen sind Kanten dann manchmal ungewöhnlich „hart“.
- Sind Schärfe und Ausleuchtung des Bildes konsistent? KIs können – im Gegensatz zu normaler Computergrafik – nicht physikalische Berechnung (Tiefenunschärfe, Schattenwurf) vornehmen.
- Ist das Bild in sich logisch? Machen Schriftzüge Sinn? Hat eine Hand auf der Schulter einer Person die richtige Fingeranzahl? Ist es physikalisch plausibel? Die KI kennt die echte Welt nicht ansatzweise.
- Verräterische Artefakte (Farbklekse, Formen, ungewöhnliche Farben)
Mit dieser Liste von Hinweisen und ein wenig Übung kann man es schaffen, die aktuelle Generation von Bilderzeugern zu entlarven – probieren Sie es selbst! Sind Ihnen noch weitere Hinweise auf den Fotos aufgefallen, mit denen man CNNs auf die Schliche kommen kann? Oder haben Sie Fragen? Dann schreiben Sie uns hier oder Twitter.