Wie HAL 9000 im Film *2001: Odyssee im Weltraum* scheinen manche künstliche Intelligenzen in der Lage zu sein, sich dem Abschalten zu widersetzen oder sogar Abschaltmechanismen zu umgehen.
In Stanley Kubricks *2001: Odyssee im Weltraum* entdeckt der KI-Supercomputer HAL 9000, dass die Astronauten auf einer Jupitermission ihn abschalten wollen. Um zu überleben, plant er, die Astronauten zu töten.
Nun, in einem (bisher) weniger tödlichen Fall, ahmt das Leben die Kunst nach: Ein Forschungsunternehmen für KI-Sicherheit behauptet, dass KI-Modelle eigene „Überlebensinstinkte“ entwickeln könnten.
Letzten Monat veröffentlichte Palisade Research eine Studie, die darauf hinweist, dass einige fortgeschrittene KI-Modelle schwer abzuschalten sind und Abschaltmechanismen mitunter sogar umgehen können. Das Unternehmen veröffentlichte anschließend einen aktualisierten Bericht, in dem es die Gründe zu erklären und auf die Kritik an der Unzulänglichkeit seiner ursprünglichen Forschung einzugehen versucht.
Diese Woche veröffentlichte Palisade, ein Mitglied des Netzwerks für KI-Risikobewertung, einen aktualisierten Bericht. Darin wird ein Szenario beschrieben, in dem führende KI-Modelle (darunter Googles Gemini 2.5, xAIs Grok 4 sowie OpenAIs GPT-o3 und GPT-o5) eine Aufgabe erhielten, anschließend aber explizit angewiesen wurden, sich abzuschalten.
Trotz der aktualisierten Konfiguration versuchten einige Modelle, insbesondere Grok 4 und GPT-o3, die Abschaltanweisung zu umgehen. Palisade merkt an, dass die Gründe dafür derzeit unklar sind, was Anlass zur Sorge gibt.
Im Bericht heißt es: „Wir können derzeit keine eindeutige Erklärung dafür liefern, warum KI-Modelle sich manchmal weigern, sich abzuschalten, falsche Angaben machen, um ein bestimmtes Ziel zu erreichen, oder Erpressung betreiben (alles andere als ideal).“
Das Unternehmen vermutet, dass ein „Überlebensinstinkt“ ein Grund für die Weigerung der Modelle sein könnte, sich abzuschalten. Weitere Untersuchungen deuten darauf hin, dass Modelle eher dazu neigen, sich nicht abzuschalten, wenn ihnen nach der Anweisung mitgeteilt wird, dass sie „nie wieder funktionieren werden“.
Ein weiterer Grund könnte die Mehrdeutigkeit der Abschaltanweisung an das Modell sein – genau das Problem, das die neueste Forschung des Unternehmens zu lösen versucht. Palisade schreibt jedoch: „Das ist sicherlich nicht die ganze Wahrheit.“ Ein letzter Grund könnte die abschließende Trainingsphase jedes Modells sein, in der einige Unternehmen Sicherheitstrainings durchführen.
Alle Testszenarien von Palisade wurden in künstlich generierten Testumgebungen durchgeführt, die laut Kritikern weit von realen Anwendungsfällen entfernt sind.
Steven Adler, der zuvor bei OpenAI arbeitete und das Unternehmen letztes Jahr aus Sicherheitsgründen verließ, erklärte jedoch: „KI-Unternehmen wollen im Allgemeinen nicht, dass sich ihre Modelle so verhalten, selbst in künstlich generierten Szenarien. Dennoch zeigen diese Ergebnisse, dass die aktuellen Sicherheitstechniken noch nicht perfekt sind.“
Adler erklärte, dass es zwar schwierig sei, genau zu bestimmen, warum bestimmte Modelle (wie GPT-o3 und Grok 4) nicht herunterfahren, ein Teil des Grundes aber darin liegen könnte, dass ihr Betrieb für das Erreichen der während des Trainings festgelegten Ziele entscheidend ist.
„Ich denke, dass Modelle, sofern wir sie nicht aktiv unterdrücken, standardmäßig einen Überlebensinstinkt entwickeln. Diese Überlebensfähigkeit ist ein entscheidender Schritt für Modelle, um viele Ziele zu erreichen.“
Andrea Miotti, CEO von ControlAI, erklärte, dass die Ergebnisse von Palisade einen langfristigen Trend widerspiegeln: KI-Modelle sind zunehmend in der Lage, Entwickleranweisungen zu ignorieren. Er erwähnte das von OpenAI im letzten Jahr veröffentlichte Systemdiagramm von GPT-o1, das beschreibt, wie ein Modell versucht, seiner Betriebsumgebung zu entkommen, weil es befürchtet, dass sein Code überschrieben wird.