Automatic word sense discrimination
Wörter haben oft mehrere Bedeutungen und Computer müssen sie je nach Kontext richtig zuordnen. Prof. Dr. Hinrich Schütze, Lehrstuhl für Computerlinguistik und Co-Director des Center für Informations- und Sprachverarbeitung an der LMU München, erläutert im Interview, wie er bereits in den 1990er-Jahren Verfahren zur automatischen Unterscheidung von Wortbedeutungen entwickelt hat und wie diese Arbeiten den Weg für heutige Sprachmodelle wie ChatGPT mitbereitet haben.
Hinrich Schütze: Die Idee war, Wortbedeutungen in einem hochdimensionalen Vektorraum zu repräsentieren. So ließ sich semantische Ähnlichkeit mathematisch fassen: Apfel und Birne liegen näher beieinander als Apfel und Blaubeere. Diese Repräsentationen wurden aus großen Textkorpora wie der New York Times gelernt. Die Gesamtheit der Kontexte, in denen ein Wort vorkommt, charakterisiert seine Bedeutung. Das führt mathematisch zu einer wohldefinierten Semantik.
Hinrich Schütze: Eine wichtige linguistische Tradition ist die der Wissensrepräsentation durch logisch verknüpfte Merkmale. Zum Beispiel wurde "to kill" (dt.: töten) als "cause to become dead" definiert (dt.: Ursache zu sterben, wörtlich: Ursache, tot zu werden) , wobei "cause" (dt.: Ursache) ,"become" (dt.: werden) und "dead" (dt.: tot) Grundmerkmale sind. Solche Systeme mussten händisch kodiert werden. Genau das ist für Menschen schwierig: Wir können zwar denken und verstehen, wissen aber nicht, wie diese Prozesse intern funktionieren – und können sie daher nur schlecht aufschreiben. Word-Space-Modelle lernen Semantik direkt aus Daten, statt Bedeutungen von Hand zu definieren.
Hinrich Schütze: Die Grundidee ist sehr einfach. Wenn ich alle Vorkommen von „Maus“ in einem Korpus sammle und jeden Kontext durch die darin vorkommenden Wörter beschreibe, entstehen zwei Gruppen: Kontexte mit Katzen, Käse und Löchern und Kontexte mit Computern, Bildschirmen und Interfaces. Diese Gruppen lassen sich automatisch finden. Ein neuer Kontext kann einer der beiden Gruppen zugeordnet werden.
Hinrich Schütze: Heutige Sprachmodelle basieren ebenfalls darauf, Bedeutung in hochdimensionalen Räumen zu repräsentieren und diese Repräsentationen aus Korpora zu lernen. Insofern ist Word Space ein Vorläufer. Die entscheidende Weiterentwicklung ist eine komplexere Zielfunktion: Ein Wort wird aus seinem Kontext vorhergesagt, etwa wird „Die Katze jagt die …“ am wahrscheinlichsten mit „Maus“ fortgesetzt. So kann komplexere Semantik gelernt werden. Dafür braucht es viel aufwendigere Architekturen als bei Word Space.