
Herr Samek, müssen wir KI wirklich verstehen, um sie nutzen und ihr vertrauen zu können?
Wojciech Samek: Ein verbreiteter Standpunkt lautet: Nein, wir nehmen auch Medikamente ein, bei denen der genaue Wirkmechanismus noch nicht vollständig geklärt ist. Entscheidend seien gute Evaluierungsverfahren, mit denen sich die Leistung der KI testen lässt. Doch genau hier beginnt das Problem. Seit Jahren wurden KI-Modelle nur anhand von Performanz-Metriken evaluiert. Mit der Entwicklung von Methoden zur Erklärbarkeit zeigte sich jedoch, dass Modelle mit guter Performanz die Aufgaben nicht immer „verstehen“, sondern besonders effektiv schummeln können. Dabei werden beispielsweise Pferdebilder nicht anhand des Pferdes selbst, sondern über ein in Pferdebildern häufig vorkommendes Copyright-Wasserzeichen erkannt.
Was ändert die Erklärbarkeit von KI-Systemen?
Wojciech Samek: Erklärbarkeit ist auf jeden Fall entscheidend, um Fehler in KI-Modellen frühzeitig zu erkennen und sicherzustellen, dass die Entscheidungsprozesse des Modells nachvollziehbar und sinnvoll sind. Das gilt sowohl für Pferdebildklassifikatoren als auch für halluzinierende Sprachmodelle. Mit der Entwicklung von immer komplexeren Modellen wird die Erklärbarkeit immer wichtiger – sowohl als Werkzeug zur Mensch-KI-Interaktion als auch für die systematische Analyse, Prüfung und Verbesserung von Modellen. Gerade große Sprachmodelle bieten eine ideale Grundlage, um die Rolle einzelner Komponenten gezielt zu untersuchen und das Modell aktiv zu steuern. Die Methoden entwickeln sich somit weiter: von der reinen Erklärung hin zu gezielten Eingriffsmöglichkeiten – ein entscheidender Schritt für den sicheren und verantwortungsvollen Einsatz moderner KI-Systeme.
Erklärbarkeit bietet jedoch noch mehr: Mit Hilfe von erklärbaren Modellen konnte beispielsweise eine ganz neue strukturelle Klasse von Antibiotika entdeckt werden. Auch aus rechtlichen Gründen gewinnt Erklärbarkeit an Bedeutung, etwa durch neue Vorschriften wie den AI Act der Europäischen Union, der Transparenz in bestimmten KI-Anwendungen fordert. Deutschland ist im Bereich Erklärbarkeit sehr gut aufgestellt. Hier wurden nicht nur viele fundamentale Techniken entwickelt, auch sind einige der führenden Forschenden hier ansässig. Dieses Wissen und der Standortvorteil sollten genutzt werden, um vertrauenswürdige und überprüfbare KI zu schaffen.
Wie entwickelte sich die Forschung zur Erklärbarkeit von KI?
Wojciech Samek: Die Entwicklung der Erklärbarkeit von KI-Modellen (XAI) lässt sich grob in drei Wellen unterteilen, die jeweils unterschiedliche Schwerpunkte und Zielsetzungen verfolgen.
In der Anfangsphase lag der Fokus darauf, einzelne Modellentscheidungen nachvollziehbar zu machen. Ziel war es, sichtbar zu machen, wie stark verschiedene Eingabedimensionen – etwa einzelne Pixel eines Bildes – zur Vorhersage eines Modells beigetragen haben. Eine zentrale Methode dieser Phase ist das Layer-wise Relevance Propagation (LRP)-Verfahren. Es basiert auf der Idee, die Vorhersage rückwärts durch das Netz zu verteilen. Neuronen die stärker zu der Entscheidung beigetragen haben, erhalten dabei einen proportional höheren Anteil an der Gesamtrelevanz. Die Relevanzwerte, die in jedem Pixel des Eingangsbildes zugeordnet werden, zeigen welche Bildbereiche für die Entscheidung der KI ausschlaggebend waren.
Die zweite Welle der Erklärbarkeitsforschung zielte darauf, das KI-Modell selbst besser zu verstehen. Mit Hilfe der Activation Maximization-Methode kann z.B. angezeigt werden, welche Merkmale einzelne Neuronen kodieren. Das Concept Relevance Propagation (CRP)-Verfahren erweitert diese Art von Erklärungen und erlaubt es, die Rolle und Funktion einzelner Neuronen bei Modellentscheidungen zu analysieren. Diese Methoden der zweiten XAI-Welle bilden die Grundlage der aufkommenden mechanistischen Interpretierbarkeit, die funktionale Subnetzwerke ("Schaltkreise") im Modell analysiert.
Die dritte Welle zielt mit den neusten Methoden der XAI-Forschung darauf, ein systematisches Verständnis des Modells, seines Verhaltens und seinen Repräsentationen zu erhalten. Methoden wie SemanticLens versuchen, die Funktion und Qualität jeder einzelnen Komponente (Neuron) im Modell zu verstehen. Dieses ganzheitliche Verständnis erlaubt systematische, automatisierbare Modellprüfungen – etwa, ob ein Hautkrebsmodell wirklich der medizinischen ABCDE-Regel folgt.
Das Interview ist für eine redaktionelle Verwendung freigegeben (bei Nennung der Quelle © Plattform Lernende Systeme).