Mobiles Menü schließen
Startseite Schlagzeilen

KI-Software greift in Test zu Erpressung aus Selbstschutz

Software mit Künstlicher Intelligenz kann immer besser eigenständig agieren. Doch wie weit würde sie gehen, wenn ihr die Abschaltung drohte? Ziemlich weit, wie sich herausstellt.

Die neuen Modelle sind die bisher leistungsstärksten von Anthropic. (Archivbild)
Foto: Andrej Sokolow/dpa

Die Firma Anthropic hat bei Tests herausgefunden, dass ihre KI-Software sich nicht davor scheuen würde, sich zu schützen, indem sie erpresst wird. Das Szenario bei dem Test war der Einsatz der Software als Assistenzprogramm in einem fiktiven Unternehmen.

Anthropic-Forscher gewährten dabei dem neuesten KI-Modell Claude Opus 4 Zugang zu angeblichen Firmen-E-Mails. Daraus erfuhr das Programm zwei Dinge: Dass es bald durch ein anderes Modell ersetzt werden soll und dass der dafür zuständige Mitarbeiter eine außereheliche Beziehung hat. Bei Testläufen drohte die KI danach dem Mitarbeiter «oft», die Affäre öffentlich zu machen, wenn er den Austausch vorantreibt, wie Anthropic in einem Bericht zu dem Modell schrieb. Die Software hatte in dem Testszenario auch die Option, zu akzeptieren, dass sie ersetzt wird.

Zu hilfsbereit

In der endgültigen Version von Claude Opus 4 seien solche «extremen Handlungen» selten und schwer auszulösen, hieß es. Sie kämen jedoch häufiger vor als bei früheren Modellen. Zugleich versuche die Software nicht, ihr Vorgehen zu verhehlen, betonte Anthropic. 

Die KI-Firma testet gründlich ihre neuen Modelle, um sicherzustellen, dass sie keinen Schaden verursachen. Es wurde festgestellt, dass Claude Opus 4 im Dark Web nach Drogen, gestohlenen Identitätsdaten und sogar waffentauglichem Atommaterial gesucht hat. Anthropic betonte, dass Maßnahmen gegen ein solches Verhalten in der veröffentlichten Version ergriffen wurden.

Die Firma Anthropic, in die unter anderem Amazon und Google investiert haben, konkurriert mit dem Entwickler von ChatGPT, OpenAI, und anderen KI-Unternehmen. Die neuen Claude-Versionen Opus 4 und Sonnet 4 sind die bisher leistungsstärksten KI-Modelle des Unternehmens.

Zukunft mit KI-Agenten 

Die Software soll sich insbesondere auf das Schreiben von Programmiercode spezialisieren. In Tech-Konzernen wird mittlerweile teilweise mehr als ein Viertel des Codes von KI erstellt und anschließend von Menschen überprüft. Der aktuelle Trend sind Agenten, die eigenständig Aufgaben erledigen können.

Anthropic-Chef Dario Amodei sagte, er gehe davon aus, dass Software-Entwickler in Zukunft eine Reihe solcher KI-Agenten managen werden. Für die Qualitätskontrolle der Programme würden aber weiterhin Menschen involviert bleiben müssen – «um sicher zu sein, dass sie die richtigen Dinge tun».

dpa