Technologien und Data Science

Peoples Images/iStock

Vom maschinellen Lernen zur Data Science

Die Nutzung von Techniken des maschinellen Lernens ist in zahlreichen Bereichen von Wissenschaft und Wirtschaft zum wettbewerbsentscheidenden Faktor geworden. Data Science umfasst darüber hinaus das Datenmanagement und die enge Zusammenarbeit mit den Anwendungen, die Daten nutzen wollen.

In der Künstlichen Intelligenz galt die Lernfähigkeit von Anfang an als grundlegende kognitive Fähigkeit. Seinen Siegeszug begann das maschinelle Lernen mit der ersten lernfähigen Suchmaschine: Google. Die Lernfähigkeit von autonomen Fahrzeugen rückte 2005 durch die DARPA Grand Challenge in den Vordergrund, bei der das Stanford-Auto „Stanley“ gewann. Im Jahr 2016 erregte der Sieg im Go-Spiel die öffentliche Aufmerksamkeit. Weniger spektakulär, aber unsere Lebens- und Arbeitswelt prägend, ist maschinelles Lernen in den Wissenschaften und sind Lernende Systeme im Marketing, in der Produktion, in Verkehr und Logistik.

Die Entwicklung vom maschinellen Lernen zu Data Science führt über drei Stufen. Zunächst wurden sorgfältig erstellte Datensätze analysiert, um daraus Wissen für wissensbasierte Systeme automatisch zu gewinnen. Die gelernten Regeln waren verständlich und konnten von Expertinnen und Experten beurteilt werden. So entstanden zum Beispiel medizinische Anwendungen zur evidenzbasierten Therapie und zur Risikoprognose.

Mit dem Data Mining kam dann die Analyse gegebener Datenbanken. Die Aufbereitung der Daten rückte in den Vordergrund, mit automatischer Optimierung der Merkmale und der gewählten Beispielmenge. Die Analyse und das Datenmanagement wurden eng verbunden. Erfolgreiche Anwendungen sind das Kundenmanagement, das direkte Marketing und Empfehlungssysteme. Sensordaten der Produktion werden zur Anomalieerkennung und Qualitätsprüfung genutzt. Umfangreiche medizinische genetische Datensätze liefern für nur wenige Fälle (Patienten) hunderttausende von Merkmalen, die Therapieerfolge vorhersagen oder begründen sollen.

Im Zeitalter von Big Data wird aus Terabyte von Datenströmen, oft verteilten Sensordaten des Internets der Dinge, gelernt, und die gelernten Modelle werden realzeitlich angewandt. Daten werden in verschiedenen Architekturen abgelegt, aggregiert und verteilt. Data Science umfasst den gesamten Prozess des Managements, der Kuratierung, der Bereinigung und der Analyse der Daten sowie des Speicherns, Validierens und Anwendens der gelernten Modelle.

Viele Methoden sind bereits erprobt. Es gibt aber auch offene Forschungsprobleme. Die großen Datenmengen einerseits und die kleinen datenerfassenden Geräte andererseits fordern ein maschinelles Lernen und Datenmanagement unter Ressourcenbeschränkung: Speicherplatz, Energieverbrauch und sogar Rechenkapazität sind beschränkt. Ein spannendes Forschungsgebiet ist die Wechselwirkung zwischen moderner Hardware und neuen Speicher- und Analysealgorithmen.

Die Interaktion mit den Anwendungswissenschaften wie Physik, Biologie oder Medizin ist fester Bestandteil der Data Science. Eine explorative und interaktive Analyse von Daten soll auch ohne Kenntnisse des maschinellen Lernens möglich sein. Die Herausforderung besteht darin, verständliche, validierbare und nachvollziehbare Modelle aus Daten zu schöpfen und mit gegebenem Wissen in Verbindung zu bringen – dies auch im Sinne gesellschaftlicher Verantwortung.

Mit Fragen zu diesen Themen beschäftigt sich in der Plattform Lernende Systeme die AG 1 unter der Leitung von Katharina Morik (TU Dortmund) und Volker Markl (TU Berlin).