AI Act
Der Artificial Intelligence Act (AI Act) ist eine 2024 verabschiedete Verordnung der Europäischen Union (EU). Sie regelt die Entwicklung und den Einsatz von KI-Systemen und schafft damit einen verbindlichen Rechtsrahmen in der EU. Ziel ist es, vertrauenswürdige KI zu gestalten, die entsprechend europäischer Wertvorstellungen eingesetzt wird. So sollen KI-Systeme, die in der EU verwendet werden, sicher, transparent, ethisch, unparteiisch und unter menschlicher Kontrolle sein. Gleichzeitig soll die Verordnung KI-Technik und -Forschung innerhalb der EU wettbewerbsfähig halten und Innovationen fördern. Weltweit ist der AI Act das erste transnationale KI-Regelwerk seiner Art.
Algorithmen
Ein Algorithmus ist eine genaue Berechnungsvorschrift für einen Computer, eine Aufgabe zu lösen. Eine besondere Klasse von Algorithmen sind Lernalgorithmen: Dabei handelt es sich um Verfahren des maschinellen Lernens, die aus Beispieldaten (Lerndaten oder Trainingsdaten) ein Modell abstrahieren, das auf neue Beispieldaten angewendet werden kann.
Autoencoder
Ein Autoencoder ist ein Verfahren von generativen KI-Systemen, das aus zwei Hauptteilen besteht: Der Encoder verwandelt ein Bild in einen kompakten Vektor, der Decoder rekonstruiert daraus das Originalbild oder erzeugt ein neues Bild. Der Vektor ist viel kleiner als das ursprüngliche Bild, was den Autoencoder zwingt, wichtige Merkmale effizient zu speichern. Autoencoder werden verwendet, um Bilder zu komprimieren und neue Bilder zu erzeugen.
Automation Bias
Automation Bias bezeichnet die menschliche Tendenz, Algorithmen und deren Empfehlungen und Entscheidungen ein Übermaß an Vertrauen entgegenzubringen und gegenüber menschlichen Einschätzungen den Vorrang zu geben. Diese Voreingenommenheit ist besonders ausgeprägt in Umgebungen, in denen Entscheidungen durch computergestützte Systeme begleitet werden, etwa in der Luftfahrt, der medizinischen Diagnose und bei Finanzprognosen.
Deep Learning
Deep Learning ist eine Methode des maschinellen Lernens in künstlichen neuronalen Netzen. Diese umfassen mehrere Schichten – typischerweise eine Eingabe- und Ausgabeschicht sowie mehr als eine „versteckte“ dazwischenliegende Schicht. Die einzelnen Schichten bestehen aus einer Vielzahl künstlicher Neuronen, die miteinander verbunden sind und auf Eingaben von Neuronen aus der jeweils vorherigen Schicht reagieren. Angewendet wird Deep Learning bei der Bild-, Sprach- und Objekterkennung sowie dem verstärkenden Lernen.
Deepfake
Deepfakes sind täuschend echt wirkende Bild-, Audio- oder Videoaufnahmen, die mithilfe von Deep Learning – also dem maschinellen Lernen mit tiefen neuronalen Netzwerken – erzeugt oder so manipuliert werden, dass Inhalte oder auftretende Personen verfälscht werden. Die Methoden sind vielfältig: Personen können in einen beliebigen Kontext gesetzt werden, Stimmen imitiert oder neu erschaffen werden, gehaltene Reden lippensynchron abgeändert werden. Mit der technologischen Entwicklung wird es zunehmend schwierig, Deepfakes unmittelbar als solche zu erkennen. Der Begriff ist ein englisches Kofferwort aus den Begriffen „Deep Learning“ und „Fake“.
Desinformation
Desinformation meint die Verbreitung von irreführenden und falschen Informationen, mit dem Ziel, Menschen vorsätzlich zu täuschen oder zu beeinflussen. Dabei kann es sich um frei erfundene, aus dem Zusammenhang gerissene, zugespitzte oder lückenhafte Informationen handeln. Neben Texten können mit Hilfe von KI auch Bilder und Videos gefälscht werden. Desinformation kann von einzelnen Akteuren ausgehen oder eine Strategie von Staaten sein, um in die politischen Prozesse anderer Staaten einzugreifen.
Diffusionsmodelle
Ein Diffusionsmodell ist ein KI-Verfahren zur Generierung von synthetischen Bildern. Im Training wird dazu ein Bild zufällig minimal verändert. Es entsteht ein kleines, zunächst kaum wahrnehmbares Rauschen – eine Störung bei Farbkontrast oder Helligkeit. Dieser Schritt wird so lange wiederholt, bis aus dem Bild ein ungeordnetes Rauschen entstanden ist. Diesen Prozess lernt das Modell dann umzukehren: Es generiert ein neues – synthetisches – Bild, indem es das Rauschen Schritt für Schritt wieder entfernt.
Diskriminierung
Diskriminierung meint die Ungleichbehandlung und gesellschaftliche Benachteiligung auf Grundlage von kategorialen Unterscheidungen. Diese basieren auf Gruppenzuschreibungen wie Geschlecht, Religion oder ethnischer Zugehörigkeit und können sowohl direkt als auch indirekt erfolgen. Diskriminierung ist ein komplexes System sozialer Beziehungen und umfasst neben individuellen Vorurteilen auch institutionelle und strukturelle Mechanismen, die Benachteiligung hervorrufen.
Expertensysteme
Ein Expertensystem ist ein Computerprogramm, das Wissen zu einem speziellen Gebiet repräsentiert, anreichert und daraus zu einem konkreten Problem automatisch Schlussfolgerungen ziehen kann. Dazu muss das Expertenwissen in Form von Fakten und Regeln (Wenn-dann-Aussagen) formalisiert und eingegeben werden. Als symbolische KI sind die meisten Expertensysteme logikbasiert und gelten im Allgemeinen als nachvollziehbarer als andere Formen der KI.
Face-Reenactment
Beim Face-Reenactment lassen sich in Videodateien Mimik, Kopf- und Lippenbewegungen einer Person verändern. Das Gesicht selbst bleibt erhalten. Zu einem vorgegebenen Text werden passende, synthetisch erzeugte Lippenbewegungen und Gesichtsausdrücke erstellt. Dafür wird von einer ausgewählten Person aus einem Videostream ein 3D-Modell erstellt. Dieses Gesichtsmodell kann mithilfe eines zweiten Videostreams einer anderen Person kontrolliert werden. So können einer Person durch Unterlegung einer passenden Audiospur täuschend echte Aussagen in den Mund gelegt werden, die sie in der Realität nie getätigt hat.
Face-Swapping
Face-Swapping ist ein Verfahren zum Gesichtstausch in einer Bild- oder Videodatei. Neuronale Netze lernen dabei aus einem Gesichtsbild die wichtigsten Mimik- und Beleuchtungsinformationen kodiert auszulesen und daraus ein entsprechendes Gesichtsbild zu erzeugen. Mit diesem wird das Gesicht einer anderen Person in Bildern oder Videos ersetzt.
Fake News
Fake News sind Falschnachrichten in Form von Text, Fotos oder Videos. Sie werden häufig über elektronische Kanäle, bevorzugt über soziale Medien, verbreitet. Erkennbar sind sie beispielsweise an reißerischen Überschriften oder fehlenden Urheber- und Quellenangaben.
Generative Adversarial Networks (GAN)
Generative Adversarial Networks (GANs) sind Algorithmen, bei denen zwei neuronale Netze, der Generator und der Diskriminator, miteinander konkurrieren. Der Generator erstellt Bilder aus Zufallsrauschen und der Diskriminator bewertet, ob diese Bilder echt oder künstlich sind. Dieser Vorgang wird so lange wiederholt, bis der Diskriminator die generierten Bilder nicht mehr als solche erkennen kann.
Generative KI
Generative KI-Systeme werden mit großen Datensätzen trainiert und sind in der Lage, Inhalte wie Text, Programmcode, Videos oder Bilder zu erzeugen. Sie stützen sich dabei auf große Rechenleistung und spezielle Algorithmen, die unter anderem auf dem so genannten Transformer-Modell basieren. Bekannte generative KI-Systeme sind ChatGTP (Open AI), Gemini (Google) und LLaMA (Meta).
Halluzinieren
Von Halluzinieren spricht man in der KI, wenn ein Sprachmodell falsche Informationen erzeugt. Diese erscheinen oft plausibel, da sie flüssig und kohärent in Texte eingebettet sind. Zu falschen Informationen kommt es, weil Sprachmodelle kein Verständnis für die zugrunde liegende Realität haben, sondern ihre Ergebnisse allein auf Basis von Wahrscheinlichkeiten erzielen – selbst wenn sich aus den Trainingsdaten keine korrekte Antwort ableiten lässt.
Künstliche Intelligenz
Künstliche Intelligenz (KI) ist ein Bereich der Informatik, der darauf abzielt, Computersystemen kognitive Fähigkeiten wie Lernen, Planen und Problemlösen zu vermitteln. Der Begriff wurde 1956 geprägt. Ziel moderner KI-Systeme ist es, Maschinen, Roboter und Softwaresysteme zu befähigen, abstrakt beschriebene Aufgaben und Probleme eigenständig zu bearbeiten und zu lösen, ohne dass jeder Schritt vom Menschen vorab programmiert wird. Dabei sollen sich die Systeme auch an veränderte Bedingungen und ihre Umwelt anpassen können.
Maschinelles Lernen
Maschinelles Lernen ist eine grundlegende Methode der Künstlichen Intelligenz (KI). Sie zielt darauf, dass Maschinen ohne explizite Programmierung eines konkreten Lösungswegs automatisiert sinnvolle Ergebnisse für eine gestellte Aufgabe liefern. Spezielle Algorithmen lernen dabei aus vorliegenden Beispieldaten Modelle, die dann auch auf neue, zuvor noch nicht gesehene Daten angewendet werden können. Dabei werden drei Lernstile unterschieden: überwachtes Lernen, unüberwachtes Lernen und verstärkendes Lernen. Maschinelles Lernen mit großen neuronalen Netzen wird als Deep Learning bezeichnet.
Microtargeting
Microtargeting meint, Medieninhalte adressatengerecht zuzuschneiden und über entsprechende Kanäle auszuspielen. Generative KI verleiht dieser Form der Verbreitung von Inhalten eine neue Dynamik und ermöglicht – etwa im politischen Kontext – eine noch spezifischere Ansprache von Zielgruppen.
Misinformation
Misinformation meint die Verbreitung von irreführenden und falschen Informationen ohne die bewusste Absicht der Manipulation oder Täuschung. Dies unterscheidet sie von Desinformation. In der Praxis ist es oftmals jedoch kaum zu bestimmen, ob eine böse Absicht des Absenders bestand oder nicht.
Sorgfaltspflicht
Die Einhaltung der journalistischen Sorgfaltspflicht bei der Berichterstattung ist eine wichtige rechtliche Anforderung. Besonders relevant ist sie, wenn die Berichterstattung die Persönlichkeitsrechte Dritter betrifft. Im Rahmen der Sorgfaltspflicht sind Journalistinnen und Journalisten für Inhalt, Herkunft und Wahrheitsgehalt von Nachrichten verantwortlich. Dies bedeutet unter anderem, dass unbestätigte Meldungen oder Gerüchte, deren Wahrheitsgehalt nicht zweifelsfrei feststellbar ist, als solche gekennzeichnet werden müssen.
Text-to-Speech
Im Text-to-Speech-Verfahren wird zu einem vorgegebenen Text mittels KI ein Audiosignal erzeugt, das sich sowohl für Menschen als auch für eine automatische Spracherkennung wie die Stimme einer vorher definierten Person anhört.
Voice Conversion
Voice-Conversion ist ein KI-basiertes Verfahren, bei dem ein Audiosignal zu einem manipulierten Audiosignal konvertiert wird. Dieses hat den gleichen semantischen Inhalt wie das Ursprungssignal, unterscheidet sich jedoch in der Charakteristik des Sprechenden. Im Idealfall gleicht es der Person, die als Zielperson ausgewählt wurde.
Deepfakes
Künstliche Intelligenz & die demokratische Gesellschaft
Meisterleistungen generativer KI
Mit Deepfakes werden Medieninhalte bezeichnet, die täuschend echt wirken und durch KI-Techniken generiert, abgeändert oder verfälscht worden sind. Es sind Techniken, die neue, kreative Möglichkeiten eröffnen in Bereichen wie Werbung, Kunst und Design, Unterhaltung und Bildung. Mit Deepfakes ist es aber auch einfach wie nie zuvor, Menschen zu diskreditieren oder ihnen Meinungen unterzuschieben, die sie nie geäußert haben und nicht teilen.
Zwar müssen laut dem von der Europäischen Union verabschiedeten Artifical Intelligence Act (AI Act) Inhalte, die mithilfe von KI erstellt oder verändert wurden, gekennzeichnet werden, doch die Vorschriften müssen erst noch in nationales Recht umgesetzt werden und greifen somit erst nach und nach. Aktuell gibt es keine strafrechtliche Konsequenzen für die Erstellung und Verbreitung von Deepfakes per se.

Empfohlener redaktioneller Inhalt
An dieser Stelle finden Sie einen externen Inhalt von YouTube, der den Artikel ergänzt. Sie können ihn sich mit einem Klick anzeigen lassen und wieder ausblenden.
Viral ging im Januar 2024 ein Deepfake einer Rede des argentinischen Präsidenten Javier Milei auf dem Weltwirtschaftsforum in Davos. Gehalten hatte Milei seine Ansprache in argentinischem Spanisch, in dem verbreiteten Video spricht er aber Englisch und zwar in seiner eigenen Stimme und mit einem für ihn charakteristischen Akzent. Auch die Lippenbewegungen stimmen überein. Es ist eine KI-generierte Synchronübersetzung, die Mileis Botschaft authentisch und wirkungsvoll verbreitete und erahnen lässt, dass sich mit diesen Tools viele Möglichkeiten eröffnen.
Deepfake-Pornos – eine neue Form von Missbrauch?
Deepfake-Pornos sind einfach zu erstellen und zu verbreiten, denn oft genügt ein einziges Bild der betroffenen Person. Mit der Deepfake-Porno-Produktion hat sich bereits eine neue Branchennische gebildet hat sich bereits ein neues Berufsbild gebildet. Die Ergebnisse der genutzten KI-Tools sind oft so realistisch, dass es die Opfer solcher Fakes – in 99 Prozent sind dies Frauen – traumatisiert. Sie berichten von großen Angst- und Schamgefühlen. Deepfake-Pornos sind eine neue Form von sexualisierter Gewalt. Der Dokumentarfilm „Unfreiwillig im Porno“ von Nicole Krättli gibt Einblicke in die Ausmaße der Problematik und spricht mit Opfern, KI-Fachleuten, Juristinnen und Juristen sowie mit Produzierenden von Deepfake-Pornos.
Screenshot links: Der Dokumentarfilm Unfreiwillig im Porno von Nicole Krättli gibt Einblicke in die Ausmaße der Problematik.
Welche Techniken stecken hinter Deepfakes?
Es gibt verschiedene Arten von Deepfakes und unterschiedliche Verfahren, auf denen sie beruhen. Die Qualität der Ergebnisse ist sehr unterschiedlich – je nachdem, ob frei zugängliche generative KI-Systeme genutzt wurden oder kostenpflichtige Systeme, die mehr Rechenkapazität und weitere digitale Kompetenzen erfordern. Unterscheiden lassen sich folgende Arten von Deepfakes:
Face-Swapping
Synthetische Stimmgenerierung
Synthetische Bildgenerierung
Face-Reenactment
Face-Swapping wird bereits auf vielen Webseiten und Apps angeboten. Gemeint ist der Gesichtstausch in einer Bild- oder Videodatei. Neuronale Netze lernen dabei aus einem Gesichtsbild die wichtigsten Mimik- und Beleuchtungsinformationen kodiert auszulesen und daraus ein entsprechendes Gesichtsbild zu erzeugen. Einige Modelle können fast in Echtzeit Gesichter tauschen. Als Trainingsmaterial werden dabei wenige, aber qualitativ hochwertige Videominuten einer Person benötigt, die möglichst viele verschiedene Gesichtsmimiken und Perspektiven enthalten. Beim Face-Swapping wird das Gesicht der Person 2 in das der Person 1 eingefügt, wobei der Gesichtsausdruck von Person 1 beibehalten wird.
Quelle: in Anlehnung an das Bundesamt für Sicherheit in der Informationstechnik
Für die Fälschung von Stimmen werden die Verfahren „Text-to-Speech (TTS)“ und „Voice Conversion (VC)“ angewandt. In einem Text-to-Speech-Verfahren wird zu einem vorgegebenen Text ein Audiosignal erzeugt, welches sich sowohl für Menschen als auch für eine automatische Spracherkennung wie die Stimme einer vorher definierten Person anhört.
Quelle: In Anlehnung an das Bundesamt für Sicherheit in der Informationstechnik
Beim Voice-Conversion-Verfahren hat ein Anwender die Möglichkeit, dem KI-System ein Audiosignal vorzugeben, welches zu einem manipulierten Audiosignal konvertiert wird. Dieses neu erzeugte Signal hat den gleichen semantischen Inhalt wie das Ursprungssignal, unterscheidet sich jedoch in der Charakteristik des Sprechenden. Im Idealfall gleicht es der Person, die als Zielperson ausgewählt wurde. Bei einem Voice Conversion-Verfahren wird ein Audiosignal von Person 1 in ein Audiosignal konvertiert, das wie die Stimme von Person 2 klingt – sowohl für Menschen als auch für eine automatische Sprecherkennung.
Quelle: In Anlehnung an das Bundesamt für Sicherheit in der Informationstechnik
Beide Verfahren werden durch komplexe neuronale Netze umgesetzt. Sie benötigen Trainingsdaten in Form von mehrere Stunden langen Audioaufnahmen der Zielperson in möglichst hoher Qualität. Liegen weitere Datenbanken mit Audiomaterial anderer Personen als Hilfsdaten vor, verringert sich die benötigte Menge an Audiomaterial der Zielperson auf wenige Minuten.
Mit KI erzeugte synthetische Bilder sind an sich kein Deepfake, sondern rein künstlich erzeugte Bilder. Sie können aber in ähnlicher Weise eingesetzt werden wie Deepfakes. Trainiert wurden die KI-Systeme mit großen Mengen an Fotos echter Personen. Für die Generierung von synthetischen Bildern, z.B. Gesichtern, kommen folgende Modelle zum Einsatz:
Diffusionsmodelle basieren auf Zufallsprozessen. Im Training wird ein Bild zufällig minimal verändert, es entsteht ein kleines Rauschen – eine Störung bei Farbkontrast oder Helligkeit, zunächst nicht wahrnehmbar. Dieser Schritt wird immer weiter wiederholt, bis aus dem Bild ein ungeordnetes Rauschen entstanden ist. Diesen Prozess lernt das Modell dann umzukehren: Es generiert ein neues – synthetisches – Bild, indem es das Rauschen Schritt für Schritt wieder entfernt.

Weitere KI-Modelle zur synthetischen Bildgenerierung sind Generative Adversarial Networks (GAN) und Autoencoder.
Beim Face-Reenactment lassen sich in Videodateien Mimik, Kopf- und Lippenbewegungen einer Person verändern. Das Gesicht selbst bleibt erhalten. Zu einem vorgegebenen Text werden passende, synthetisch erzeugte Lippenbewegungen und Gesichtsausdrücke erstellt. Dafür wird von einer ausgewählten Person aus einem Videostream ein 3D-Modell erstellt. Dieses Gesichtsmodell kann dann mithilfe eines zweiten Videostreams einer anderen Person kontrolliert werden. So können einer Person durch Unterlegung einer passenden Audiospur täuschend echte Aussagen in den Mund gelegt werden, die sie in der Realität nie getätigt hat.
Wie lassen sich Deepfakes erkennen?
Zur Detektion von Deepfakes werden verschiedene Methoden und Techniken eingesetzt, um Anomalien oder Hinweise auf Manipulation in den Medieninhalten zu identifizieren. Dazu gehören die Analyse von Gesichtsmerkmalen, die Überprüfung von Lippenbewegungen, die Untersuchung von Beleuchtung und Schatten. Auch KI-basierte Methode werden angewandt, um Muster und Abweichungen zu erkennen. Die Methoden zur Detektion werden – wie auch die Angriffsmethoden – stetig weiterentwickelt, zum Beispiel an der TU Darmstadt unter der Leitung von Prof. Dr. Ahmad-Reza Sadeghi. Auch das Forschungsprojekt Deep Fake Total am Fraunhofer Institut für Angewandte und Integrierte Sicherheit (AISEC) hat Systeme entwickelt, um Manipulationen an Audiospuren automatisiert zu detektieren.

Empfohlener redaktioneller Inhalt
An dieser Stelle finden Sie einen externen Inhalt von YouTube, der den Artikel ergänzt. Sie können ihn sich mit einem Klick anzeigen lassen und wieder ausblenden.
Müssen wir lernen, mit Deepfakes zu leben?
Mit KI lassen sich nicht nur Deepfakes erstellen, sondern auch erkennen. Wie funktioniert das? Und wie hoch ist die Erfolgsquote solcher Detektionstools? Prof. Dr. Ahmed-Reza Sadeghi, Mitglied der Plattform Lernende Systeme und Leiter des System Security Labs an der TU Darmstadt, geht mit seinem Team genau diesen Fragen nach.
Der erste und größte Schutz vor Manipulation und Täuschung ist Medienkompetenz: Deepfakes verbreiten sich vor allem über Social Media-Plattformen und zwar innerhalb von Minuten. Ein Bewusstsein für die Mechanismen dieser Plattformen und ein verantwortungsvoller Umgang damit können Deepfakes entlarven und ihre Verbreitung stoppen.
Bitte kritisch prüfen:
- Absender: Ein Blick auf den Account verrät oft schon, ob eine zweifelhafte Person oder Organisation dahinter steckt. Aber Achtung, auch Accounts können gefälscht oder gehackt werden.
- Kontext: Was wird gesagt? Ergibt das Sinn? Ist das sonst noch irgendwo erschienen? Eine Bild-Rückwärtssuche kann zeigen, was die ursprüngliche Quelle des Bildes ist.
- Details: KI-Manipulationen weisen oft Unschärfen oder Verzerrungen auf.
- Passen die Lippenbewegungen zu den gesprochenen Worten?
- Stimmt die Betonung und die Tonalität der Stimme?
- Ist die Körperhaltung ungewöhnlich oder stimmen die Proportionen nicht?
- Handelt es sich um bekannte Personen, kann man andere Bilder zur Überprüfung heranziehen?
- Ist es glaubwürdig, dass die Person Englisch oder eine andere Sprache spricht beziehungsweise einen Übersetzer benötigt?
Aufgedeckte Deepfakes
Falschnachrichten rund um politische und gesellschaftliche Themen gibt es schon lange. In den vergangenen Jahren sind durch KI erzeugte Deepfakes in Form von Bildern, Videos oder Audios hinzugekommen und haben eine neue Dimension an Täuschung in die Medienlandschaft gebracht – teilweise mit starker Wirkung, die bis in die Aktienmärkte hinein spürbar war. Viele Medien reagieren, indem sie verdächtige Inhalte überprüfen und widerlegen. Die Bildergalerie zeigt eine Auswahl.
Wie lassen sich Deepfakes verantwortungsvoll nutzen?
Es gibt positive Anwendungen von Deepfakes, das ist unbestritten. Ein Verbot der zugrunde liegenden Technik erscheint daher nicht sinnvoll. Sie bleiben Bestandteil unseres Medienumfelds und werden sich weiter entwickeln. Wie können aber positive Anwendungen gefördert und missbräuchliche verhindert werden? Wie können Vertrauen und Transparenz beim Einsatz von Deepfakes geschaffen werden? Fragen, die für das Fortbestehen einer Demokratie von existenzieller Bedeutung sind.
Einige Forscherinnen und Forscher haben Grundsätze für einen verantwortungsvollen Umgang mit Deepfakes entwickelt. Sie können Vorbild für verbindliche Regeln sein. Zu den Grundsätzen gehören:
- Kennzeichnung: Der Einsatz von Deepfakes sollte immer angegeben werden.
- Wahrung von Persönlichkeitsrechten: Nur mit Einverständnis der jeweiligen Person darf ein Deepfake von ihr erstellt werden.
- Ethische Überprüfung: Der Einsatz von Deepfakes sollte im jeweiligen Kontext ethisch vertretbar sein.
- Offener Zugang zu KI-Modellen: Die Bevölkerung sollte die Möglichkeit haben, selbst KI-Modelle zu testen und zu gebrauchen.
Kritisch zu werten ist, dass einige wenige Unternehmen mit kommerziellen Interessen über Zugang und Nutzung von generativer KI bestimmen. Sie verfügen über immense Rechen- und Datenkapazitäten. Die meisten bieten ihre Dienste (ab einem bestimmten Nutzungsgrad) kostenpflichtig an. Es kommt damit zu einer starken Marktkonzentration. Kleinere KI-Unternehmen, die nicht die Daten- und Rechenpower haben, können in diesem Wettbewerb nicht mithalten. Dem entgegen stehen Open-Source-Modelle.
Open Source: Stable Diffusion
Generative KI ist nicht nur eine Sache von US-Konzernen: Der Text-zu-Bild-Generator Stable Diffusion wurde von einem Forschungsteam der Ludwig-Maximilians-Universität München unter der Leitung von Prof. Dr. Björn Ommer als Open-Source-Modell entwickelt. Technologische Grundlage ist ein Diffusionsmodell. Das Besondere: Stable Diffusion ist so skaliert, dass es lokal auf herkömmlichen Computern installiert werden kann. Ein cloud-basierter Zugriff auf große Rechenserver, wie bei anderen Modellen, ist nicht nötig. Einen Vorgänger des Modells veröffentlichte das Team bereits im Dezember 2020 – ein gutes Jahr vor dem Launch des KI-Bildgenerators DALL-E (OpenAI) – und startete damit das Wettrennen der KI-Bildgeneratoren. Beeindruckend war schon bei den ersten veröffentlichten Bildern, wie gut Stable Diffusion die Generierung von Reflexionen und Schattenwurf gelang, obwohl es darauf nicht explizit trainiert worden ist.
In vielen Bereichen gibt es konstruktive, legale, kreative und transparente Anwendungsmöglichkeiten für Deepfakes:
- Bildung und Aufklärung: Komplexe Themen können mit Deepfakes veranschaulicht, historische Figuren oder Ereignisse rekonstruiert werden.
- Barrierefreiheit und soziale Teilhabe: Deepfakes können z.B. Texte in Gebärdensprache übersetzen oder Personen mit sprachlichen Beeinträchtigungen ermöglichen, sich zu verständigen. Wichtig dabei ist, dass entsprechende Produkte unter enger Einbeziehung der Betroffenen entwickelt werden, um sie auf deren Bedürfnisse abzustimmen.
- Personenschutz: Mit Deepfakes können Identitäten geschützt werden: Im Dokumentarfilm „Welcome to Chechnya“ („Willkommen in Tschetschenien“) können mit dieser Methode Personen porträtiert und begleitet werden, die aus Sicherheitsgründen ihr wahres Gesicht nicht zeigen können.
- Motivation: Im Training und in der beruflichen Weiterbildung können Deepfakes maßgeblich die Motivation und damit die Erfolgswahrscheinlichkeit erhöhen. So wurden in einem Fitnessprogramm die Übungen von einem Deepfake des oder der Teilnehmenden vorgeführt – mit dem Ergebnis, dass die Übungen durchweg besser und erfolgreicher absolviert wurden.
- Kunst- und Unterhaltung: In Filmen ergänzen Deepfake-Methoden bisherige visuelle Effekte und ermöglichen Erzählungen, die Zeit und Raum überspringen. Auch für Satire und in Werbespots werden Deepfakes gerne genutzt.