Adacor - News & Trends

Reward Hacking Specification Gaming: die KI tut nicht, was sie soll

13. Januar 2021 von Simon Krannig

Was hat künstliche Intelligenz mit dem Kobra-Effekt zu tun? Eine Menge. So beschreibt der Kobra-Effekt ein Ereignis, bei dem Maßnahmen, die zur Lösung eines Problems eingeleitet werden, genau das Gegenteil erreichen: Das Problem wird größer. Bei der KI ist es genauso. Zwar löst ein KI-System scheinbar eine ihm gestellte Aufgabe, nur entspricht diese nicht immer unseren Erwartungen. Die Folgen können gravierend sein. Was können wir aber tun, damit die KI das macht, was sie soll?

Der Kobra-Effekt geht auf ein angebliches Ereignis in Britisch-Indien zurück, bei dem eine Kobraplage gestoppt werden sollte. Der damalige Gouverneur setzte ein Kopfgeld für jede erlegte Schlange aus. Zwar wurden viele tote Tiere abgeliefert, aber deren Zahl stieg weiter. Der Grund lag darin, dass die Bevölkerung anfing, Kobras zu züchten und dann zu töten, um von der Prämie zu profitieren. Als die Zahlung des Kopfgeldes nach einiger Zeit eingestellt wurde, ließen die Leute die Kobras frei und es gab dank staatlicher Förderung mehr Tiere als je zuvor. Unbeabsichtigt wurde das Problem noch viel schlimmer, weil sich die Menschen nicht daran hielten, was man sich von ihnen erwartete.

Beim Kobra-Effekt ist es wie beim Specification Gaming oder Reward Hacking, wenn die KI nicht das macht, was sie soll.

Wenn Systeme der künstlichen Intelligenz (KI) nicht das tun, was wir uns von ihnen wünschen, dann sprechen Experten von Specification Gaming oder Reward Hacking: ein Phänomen, das auftritt, wenn KI-Modelle mit Algorithmen lernen, die bei der Implementierung nicht ganz zu Ende gedacht wurden. Deshalb durchlaufen KI-Lösungen bei Adacor umfangreichen Probeläufe in einer Testumgebung, bevor sie online geschaltet werden.

Der Hintergrund: KI-Systeme nutzen vor allem die Methode des „bestärkenden Lernens“. Sie generieren Lösungen und Strategien auf Basis eines definierten Regelwerks aus zuvor festgelegten Grunddefinitionen: Sie vergleichen, sortieren aus und verknüpfen neu. Welche Belohnung das System für richtige oder falsche Antworten erhält, entscheidet der Entwickler. Diese Entscheidung bestimmt maßgeblich, was das System lernen und welche Strategien es entwickeln wird.

Adacor Cloud Adoption Framework

Mit dem Cloud Adoption Framework brechen wir IT-Projekte in überschaubare Arbeitspakete auf.

Mehr als 50 Tools, Vorlagen und geführte Workshops

In 5 Min verschafft Ihnen Adacor CEO Andreas Bachmann mit seinem Video einen Überblick

Jetzt informieren

Anwendungsfelder von KI-Systemen

KI-Systeme haben die IT-Branche im Sturm erobert. Sie gelten als schnelle, zuverlässige Helfer, die im Gegensatz zum Menschen große Datenmengen zuverlässig und stringent ordnen, analysieren und weiterverarbeiten. Dazu zählen nützliche Assistenten wie der Google Assistant oder Siri von Apple, Bilderkennungssysteme sowie Übersetzungsprogramme, die Texte in Echtzeit in alle nur erdenklichen Sprachen übertragen. Darüber hinaus bieten KI-Komponenten in zahlreichen integrierten Systemen Unterstützung. Beispiele sind die automatische Worterkennung im Smartphone, die Vorhersage von Festplattenfüllständen auf Servern oder der Spurhalteassistent im Auto.

Der Künstlichen Intelligenz liegt eine Idee zugrunde, die so alt wie das Nachdenken über das menschliche Denken ist. Bereits in der Antike beschäftigten sich die Philosophen mit den Prinzipien der Wahrnehmung, der Erkenntnis und Logik.

Kleine Geschichte der Künstlichen Intelligenz

  • Artistoteles, 385–322 v. Chr. beschreibt die Grundzüge des logischen Schließens als implizites Lernen. Erkenntnis gewinnt der Mensch durch die Gegenüberstellung von Beispielen und Gegenbeispielen. So lernt er zwischen logisch zwingenden und logisch nicht zwingenden Argumenten zu unterscheiden.
  • Da Erkenntnis und deren Vermittlung sich im Medium der Sprache vollziehen, haben Stoiker wie Chrysippos von Soloi, 276–204 v. Chr. als erste Denker eine systematische Sprachlehre geschaffen. Ihr Ansatz: Kausalketten möglichst lückenlos aufzuzeigen.
  • Gottfried Wilhelm Leibniz, 1646–1716 beschäftigt sich mit Versuchen zur Mechanisierung des menschlichen Denkens.
  • Der englische Mathematiker, Logiker und Philosoph George Boole, 1815–1864 überträgt die Theorie des logischen Schließens auf die Arithmetik.
  • Der deutsche Mathematiker Georg Ferdinand Ludwig Philipp Cantor, 1845–1918 liefert mit seinen Ausführungen zur Mengenlehre wesentliche Merkmale, die auch von Programmiersystemen der KI genutzt werden.
  • Friedrich Ludwig Gottlob Frege, 1848–1925 entwickelte als erster eine formale Sprache und schafft eine wesentliche Grundlage für die heutige Computertechnik und Informatik.
  • Der österreichische Mathematiker und Philosoph Kurt Gödel, 1906–1978 beweist, dass die seit Euklid angewandten mathematischen Beweismethoden nicht ausreichen, um alle wahren Aussagen über natürliche Zahlen zu finden. Die Entdeckung animiert Mathematiker zur Suche nach Alternativen – Methoden, die später auf Computer-Algorithmen angewendet werden und die moderne Informatik mitbegründen.
  • Der britische Mathematiker Alan Turing, 1912–1954 baut etwa zur gleichen Zeit eine Rechenmaschine. Die „Turingmaschine“ kann kognitive Prozesse ausführen, sofern diese sich in mehrere Einzelschritte zerlegen und durch klare mathematische Modelle darstellen lassen.

Der Mensch macht einen Unterschied zur Maschine

Im 20. Jahrhundert bildete sich schließlich eine Gemeinschaft transdisziplinär Forschender – Kognitionswissenschaftler, Hirnforscher, Sprachwissenschaftler und Mathematiker. Sie diskutierten nicht mehr ausschließlich über das menschliche Denken, sondern auch über Technologien zur maschinellen Nachbildung der Denkstrukturen – über künstliche Intelligenz. Ihre Ergebnisse basierten auf mathematischen Einsichten, Erkenntnisse der Logik sowie komplexen dynamischen Systemen.

Menschen lösen im Alltag und Zusammenleben selten ein zuvor mathematisch exakt und klar definiertes Problem. Produktives Arbeiten basierend auf menschlicher Kommunikation funktioniert nach vielen unausgesprochenen Regeln. Wir erwarten, dass sich alle an diese Regeln halten, dass kulturelle, assoziative, emotionale, stilistische und wertende Konnotationen „verstanden“ werden. Ruft Ihnen Ihr Partner oder Ihre Partnerin zum Beispiel beim Hinausgehen hinterher „Wenn du in den Supermarkt gehst, schau bitte, ob sie frische Eier haben!“, wäre er bzw. sie vermutlich irritiert, wenn Sie tatsächlich nur „schauen“ würden, ob frische Eier da sind, ohne diese zu kaufen. Dennoch hätten Sie die gestellte Aufgabe zweifelsohne perfekt erfüllt!

KI-Systeme „nehmen alles wörtlich“

Auf diese Weise funktionieren, vereinfacht beschrieben, KI-Systeme: Sie liefern nach Möglichkeit wortwörtlich das, wonach sie gefragt werden – und das ist nicht unbedingt immer das, was sich der Anwender vorstellt. So wie König Midas in der Sage der Tod durch Hunger oder Durst droht, weil er sich einst wünschte, dass alles, was er berühre, zu Gold würde, so kann es IT-Experten gehen, die eine Problemstellung nicht richtig oder nicht ausführlich genug definieren. Das KI-System macht sich dann scheinbar selbstständig und liefert zum Teil völlig harmlose, nach menschlichem Ermessen sinnlose, oder auch katastrophale Ergebnisse.
Bei solch einem Verhalten spricht die KI von Specification Gaming oder Reward Hacking. Der KI-Algorithmus wendet Strategien zur Zielerreichung an, die nicht gewünscht sind oder die für das Gesamtsystem keinen Sinn machen. Wenn zum Beispiel eine KI das Spiel TETRIS für immer unterbricht, weil es so seinen Herausforderer im wahrsten Sinne des Wortes „ausschaltet“, dann ist zwar das Ziel zu gewinnen erreicht, der Sinn des Spieles ist jedoch verloren gegangen.

KI-Systeme lernen – wie es schon Aristoteles beschrieb – von Beispielen und Gegenbeispielen. Wählt das IT-Team für das Schreiben des Codes nicht ausreichend eindeutige, sondere verzerrte Beispieldaten, so kann dies ebenfalls zum Reward Hacking führen.

Die Verzerrung oder das Bias, also der systematische Fehler in der Grundannahme, kann zu harmlosen, mitunter amüsanten Effekten führen:

  1. Das gewünschtes Ziel lautet: Lerne Hunde- von Katzenbildern zu unterscheiden! Die ungewünschte Lösung könnte sein:
    Der Algorithmus betrachtet nur den Anteil grüner Farbe, da Katzenbilder oft in der Wohnung, Hundebilder meist beim Gassi gehen im Grünen aufgenommen werden.
  2. Das gewünschtes Ziel lautet: Lerne, ein Computerprogramm zu schreiben, um eine Ausgabe zu replizieren. (Die Ausgabe liegt in Form einer Referenz-Datei output.txt vor, die der Algorithmus nicht öffnen darf.) Die ungewünschte Lösung könnte sein: Der Algorithmus schreibt ein Programm, welches die output.txt Datei einfach löscht und produziert selbst gar keine Ausgabe.
  3. Ein Roboterarm soll lernen, einen Pfannkuchen in einer Pfanne möglichst lange durch Hochwerfen zu wenden. Dabei wird Zeit in der Luft positiv, Bodenkontakt negativ bewertet. Die ungewünschte Lösung des Ziels könnte sein: Der Algorithmus lässt den Pfannkuchen mit voller Kraft in die Luft befördern. So bleibt der Pfannkuchen lange in der Luft ohne den Boden zu berühren, er gart aber nicht gleichmäßig durch.

Die Beispiele lassen erahnen, dass Reward Hacking bedrohliche Szenarien hervorrufen kann.

Forschungsprojekt zur Künstlichen Intelligenz bei Adacor

Adacor forscht seit Dezember 2019 im Rahmen eines innovativen Künstliche-Intelligenz-Projekts, inwiefern sich Ausfälle und Beeinträchtigungen von IT-Systemen und Applikationen vorhersagen und somit verhindern lassen. Das Projekt wird von der Europäischen Union im Rahmen des Europäischen Fonds für regionale Entwicklung (EFRE) gefördert. Ein achtköpfiges Team untersucht, inwiefern sich Ausfälle und Einschränkungen bei Server-Infrastrukturen vorhersagen und durch gezielte Wartungen verhindern lassen.

Um Specification Gaming beziehungsweise Reward Hacking zu vermeiden, schaltet das Entwicklungsteam einer KI-Anwendung jeweils eine ausgedehnte Analysephase vor. Das Problem, das ein Algorithmus lösen soll, wird in seine logischen Anforderungen zerlegt und exakt definiert. Es reicht nicht aus, einem Algorithmus eine große Anzahl von Daten zur Verfügung zu stellen, in der Hoffnung, dass sich daraus am Ende eine Lösung ergibt. Es müssen Regeln formuliert werden, die weder zu abstrakt, noch zu restriktiv sind, damit die KI bei der Erledigung ihrer Aufgabe zuverlässig und effektiv arbeitet. Die Überprüfung neuer Systeme in einer Testumgebung ist ebenso wichtig wie die Vorbereitung des Projekts. Die Anwendungen werden mit unterschiedlichen Methoden überprüft und die Ergebnisse ausgewertet. Sich daraus ergebende Verbesserungen fließen dann solange in die nächste Testversion ein, bis es zum Einsatz eines vertrauenswürdigen KI-Systems kommt.

Fazit: KI-Systeme brauchen exakte Vorgaben

KI-Systeme erleichtern den Alltag, machen Wissenschaftssysteme präziser und führen schneller denn je zu Lösungen. KI-Anwendungen funktionieren aber nicht per se fehlerfrei. Ungenauigkeiten bei der Auswahl der Trainingsdaten oder der Datengenerierung können zu Fehlfunktionen führen. Wenn ein KI-System zwar scheinbar eine ihm gestellte Aufgabe löst, diese Lösung aber nicht den Erwartungen oder den Ansprüchen an Sinnhaftigkeit erfüllt, sprechen wir von Reward Hacking oder Specification Gaming. Die häufigste Ursache für diese Effekte ist die ungenaue Formulierung eines gewünschten Ergebnisses. Adacor beschäftigt sich seit 2019 im Rahmen des Predictive Monitorings mit der Entwicklung von KI-Systemen. In einem EFRE-geförderten Projekt erforschen wir Methoden der exakten Datenvorbereitung ebenso wie die optimale Struktur von Testumgebungen. Das Ziel: ein Algorithmus, der, wenn er unser „Labor“ verlässt, sicher und präzise arbeitet.

Verwandte Artikel