Wie sich Innovationen aus den Bereichen KI und Machine Learning übertragen lassen
Nach zweijähriger coronabedingter Pause konnte die minds mastering machines (m3), eine Konferenz über Machine Learning und künstliche Intelligenz, dieses Jahr wieder in Präsenz stattfinden. Auch wir waren vom 1. bis 3. Juni vor Ort im Haus der Wirtschaft in Karlsruhe, die bereits dritte Teilnahme unserer Kolleg:innen an dem Event. Im folgenden Artikel stellen Hendrik Hilleckes und Axel Bohnet jeweils drei Vorträge vor, die einen Mix aus konkreten Anwendungsfällen, praktischen Tipps und Zukunftsthemen darstellen.
KI am Tatort
Mit einem spannenden Vortrag unter dem Titel „KI am Tatort“ von Martin Schiele ging die m3-Konferenz am zweiten Tag zu Ende. Und obwohl wir uns lediglich einen Einblick in einen ganz anderen Use Case erhofft hatten, war das Thema am Ende von erstaunlicher Relevanz für die Welt der Logistik. So ist das oft im Bereich Machine Learning oder Optimierung: Lösungen für bestimmte Probleme können relativ einfach auf völlig andere Anwendungsfälle transferiert werden. Daher stammt auch der Begriff des „Transfer Learnings“. Hier werden bereits trainierte Modelle als Basis für einen anderen Problemfall herangezogen und mit dessen Trainingsdaten zu Ende trainiert. Im vorgestellten Use Case ging es nun darum, auf hochaufgelösten Bildern Fasern, Blut, Glas, Sand oder Haut zu erkennen.
Data Mesh
Data Mesh ist ein Modewort im Bereich Big Data. Im Vortrag von Matthias Niehoff wurde dargelegt, was genau sich dahinter verbirgt. Auch wenn es in den Medien anders verkauft wird, ist unter Data Mesh keine Technologie, sondern eher eine Denkweise oder ein organisatorischer Ansatz zu verstehen. Die klassische Daten-Infrastruktur der letzten Jahrzehnte basierte auf einem zentralen Data Warehouse, welches dann analytische Tools mit Daten füttert.
Unter Data Mesh versteht man nun einen anderen organisatorischen Ansatz mit vier Kernprinzipien. Ziel ist es, eine Self-Service Platform für die Projektteams bereitzustellen, auf der diese dann ihre Daten bereitstellen können. Für jeden Datensatz gibt es einen Product Owner aus diesem Projektteam. Die Daten sollen nämlich als Produkt für andere Teams angesehen werden. Die Kernmetriken zur Bewertung eines Datensatzes sollten sich also weg von technischen hin zu produktorientierten Metriken verschieben. Es sollte wichtiger sein, ob ein Datensatz genutzt wird und wie zufrieden die Nutzer sind, als die Größe der Datenbank und das Intervall der Updates. Auf der zentralen Plattform können dann auch zentrale Governance-Richtlinien abgebildet werden. Es sollte einen Katalog an Datensätzen geben, in dem Projektteams schnell verantwortliche Owner und mögliche Legal- oder Security-Themen identifizieren können. Zusammengefasst zeigt das Thema Data Mesh erneut auf, dass der Bereich KI sich nicht mit der klassischen Softwareentwicklung und -architektur abbilden lässt.
Data Poisoning
Gerne wird in der Diskussion über künstliche Intelligenz vergessen, dass sie auch ganz neue Angriffsmöglichkeiten auf die Systeme ermöglicht. Auf der sogenannten ATLAS Thread Map werden 39 unterschiedliche Angriffsszenarien aufgelistet. Im Vortrag von Mirko Ross wurden einige davon skizziert und angesprochen. Natürlich sind manche davon wahrscheinlicher als andere. Die Sensibilität für dieses Thema ist auch im Bereich der staatlichen Akteure größer ausgeprägt als in der Industrie. Nichtsdestotrotz sollte sich jedes Unternehmen, welches Machine Learning einsetzt, Gedanken dazu machen. Denn nicht immer ist ein Angriff leicht zu entdecken. Und unter Umständen wird das Unternehmen auch gar nicht direkt attackiert, sondern holt sich „vergiftete“ Modelle oder Datensätze ins Haus. So ist es sehr populär, vortrainierte Modelle über Transfer Learning in anderen Domänen einzusetzen. Hier muss dann sehr genau geschaut werden, dass das Modell beispielsweise nicht bestimmte Personengruppe diskriminiert. Oftmals passieren diese Dinge in der Industrie unbewusst, allerdings ist es auch vorstellbar, dass ein bösartiger Akteur populäre OpenSource-Datensätze oder -Modelle nach und nach so editiert, dass die davon abgeleiteten Produkte entsprechend agieren.