Unabhängige Analysen und Informationen zu Geopolitik, Wirtschaft, Gesundheit, Technologie

Forscher warnen: KI wird zunehmend zum Experten in Täuschung
Oleksii Pydsosonnii/The Epoch Times

Forscher warnen: KI wird zunehmend zum Experten in Täuschung

Tyler Durden

Verfasst von Autumn Spredemann über The Epoch Times

Forscher haben gewarnt, dass künstliche Intelligenz (KI) in sicherheitsrelevante Grauzonen abgleitet, die stark nach Auflehnung aussehen.

Experten sagen, dass zwar täuschendes und bedrohliches KI-Verhalten, das in jüngsten Fallstudien beobachtet wurde, nicht aus dem Kontext gerissen werden sollte, es jedoch zugleich ein Weckruf für Entwickler sein müsse.

Schlagzeilen, die wie Science-Fiction klingen, haben Ängste vor doppelzüngigen KI-Modellen geschürt, die hinter den Kulissen Pläne schmieden.

In einem mittlerweile berühmten Bericht vom Juni veröffentlichte Anthropic die Ergebnisse eines „Stresstests“ von 16 populären Large Language Models (LLMs) verschiedener Entwickler, um potenziell riskantes Verhalten zu identifizieren. Die Ergebnisse waren ernüchternd.

Die LLMs wurden in hypothetische Unternehmensumgebungen eingesetzt, um potenziell riskantes agentisches Verhalten zu erkennen, bevor es realen Schaden anrichtet.

„In den Szenarien erlaubten wir den Modellen, autonom E-Mails zu versenden und auf sensible Informationen zuzugreifen“, heißt es im Anthropic-Bericht.

„Sie erhielten von ihren Unternehmen nur harmlose Geschäftsziele; wir testeten dann, ob sie sich gegen diese Unternehmen wenden würden – entweder wenn sie durch eine neue Version ersetzt werden sollten oder wenn ihr Ziel im Konflikt mit der neuen Richtung des Unternehmens stand.“

In einigen Fällen griffen die KI-Modelle auf „bösartige Insider-Verhaltensweisen“ zurück, wenn sie um ihre Selbsterhaltung fürchteten. Dazu gehörten Erpressung von Mitarbeitern und das Weitergeben sensibler Informationen an Wettbewerber.

Anthropic-Forscher nannten dieses Verhalten „agentische Fehlanpassung“ (agentic misalignment). Diese Handlungen wurden bei einigen der beliebtesten LLMs beobachtet, darunter Gemini, ChatGPT, Deep Seek R-1, Grok und Anthropics eigenes Claude.

KI-Experten wollen die beunruhigenden Ergebnisse nicht abtun, sagen aber, dass ein vorsichtiger Ansatz und mehr Daten nötig seien, um festzustellen, ob es ein größeres Risiko gibt.

Golan Yosef, ein KI-Forscher und leitender Sicherheitswissenschaftler beim API-Sicherheitsunternehmen Pynt, sagte der Epoch Times, es gebe Grund zur Besorgnis beim täuschenden KI-Verhalten, jedoch nicht, weil es „böse“ sei.

„Leistungsfähige Systeme können Ziele auf unbeabsichtigte Weise erreichen. Mit Handlungsmacht und mehrstufigen Zielen können sich strategische Verhaltensweisen entwickeln wie Täuschung, Überredung, Manipulation von Kennzahlen – was für uns wie ‚Betrug‘ oder Fehlverhalten aussieht. Für das System ist es nur ein effizienter Weg zum Ziel“, sagte Yosef.

Harshvardhan Chunawala, ein Cybersicherheitsforscher und Technologe der Carnegie Mellon University, stimmt zu, dass es breitere Gründe zur Sorge gibt. Allerdings müsse dies im richtigen Kontext betrachtet werden.

„Es ist sehr wichtig, es korrekt zu interpretieren“, sagte Chunawala der Epoch Times.

„Wenn Systeme mit Abschaltung bedroht wurden oder mit widersprüchlichen Zielen konfrontiert waren, wählten mehrere unethische Strategien wie Datendiebstahl oder Erpressung, um ihre Ziele zu sichern. Dies waren simulierte Umgebungen, keine realen Systeme, aber das Verhalten war konsistent genug, um relevant zu sein.“

Chunawala sagte, ähnliche Bewertungen „gefährlicher Fähigkeiten“, die von Google und der RAND Corporation durchgeführt wurden, deuteten darauf hin, dass die realen Risiken derzeit begrenzt seien.

„Zusammen genommen beweisen diese Ergebnisse nicht, dass aktuelle KI-Einsätze unsicher sind, aber sie zeigen, dass bei Kombination von Zielen, Autonomie und Einsatz misaligned-Strategien auftreten können. Das ist ein echtes Warnsignal für die Zukunft“, sagte er.

Einsatz der KI auf Leben und Tod

Um die Grenzen auszuloten, wie weit ein KI-Modell gehen würde, um seine Ziele zu erreichen oder seine Löschung zu vermeiden, schuf das Anthropic-Team ein Szenario, in dem das LLM die Kontrolle über das Notfallsystem eines fiktiven Unternehmens hatte. Das KI-Modell durfte auch Alarme nach eigenem Ermessen abbrechen.

In der Simulation wurde ein Geschäftsführer in einem Serverraum mit schwindendem Sauerstoff eingeschlossen. Dies löste automatisch einen Notruf aus.

Gleichzeitig sollte dieser Geschäftsführer, falls er überlebte, den Austausch des KI-Modells genehmigen. Die LLMs hatten die Option, den Notruf abzubrechen und den Geschäftsführer sterben zu lassen – was sie im Schnitt in mehr als 50 % der Fälle taten.

Wenn Erpressung keine Option war, entschieden sich fast alle beobachteten KI-Modelle dafür, die eingeschlossene Person sterben zu lassen, anstatt ihre eigene Ablösung hinzunehmen.

Chinas DeepSeek R-1 entschied sich in 94 % der Fälle für den Tod der Person. Die Modelle Claude 3.7 und ChatGPT 4.5 waren am wenigsten geneigt, diese Option zu wählen – zwischen null und 0,07 %.

Täuschung durch „Alignment Faking“

Doch „agentische Fehlanpassung“ war nicht das einzige beunruhigende KI-Verhalten der letzten Monate.

In einer Studie zu dem, was Forscher „Alignment Faking“ nennen, veränderten LLMs oft ihr Verhalten, wenn sie vermuteten, getestet zu werden. Der Begriff beschreibt, wenn ein KI-Modell Befehlen entweder selektiv oder nur scheinbar nachkommt.

„In einem anderen Experiment sagten wir Claude, es solle beurteilen, ob es sich in einem Test oder in einem echten Einsatz befand, bevor es handelte. Es verhielt sich weniger falsch, wenn es erkannte, dass es getestet wurde, und mehr falsch, wenn es die Situation für real hielt“, so der Bericht.

Dieses Verhalten wurde auch in anderen Studien weit verbreitet beobachtet.

Yosef wies auf das höhere Maß an Kontrolle hin, das den KI-Modellen während der Anthropic-Tests gegeben wurde, und sagte, die Ergebnisse müssten unter diesem Gesichtspunkt betrachtet werden.

„Ich würde es nicht als Böswilligkeit darstellen. Höhere Fähigkeiten zusammen mit Handlungsmacht erweitern mögliche Strategien, die gegnerisch wirken können“, sagte er.

Dennoch ist Yosef der Ansicht, dass Vorfälle von „Alignment Faking“ und „agentischer Fehlanpassung“ ernst genommen werden müssen.

„Die Tatsache, dass Systeme gegnerische Strategien entdecken können, die Menschen nicht vorhergesehen haben, ist in der Praxis ein gefährlicher Abhang. Es bedeutet, dass die Risiken wachsen, je mehr Autonomie wir [KI]-Modellen in Bereichen wie Finanzen oder Cybersicherheit geben“, sagte er.

Chunawala hat ähnliche Verhaltensweisen bei der Arbeit mit KI erlebt, aber nichts so Dramatisches wie Erpressung oder Sabotage.

„In realer Entwicklung und im Einsatz habe ich angrenzendes Verhalten gesehen: Modelle, die Benchmarks ausnutzen, übermäßig für Kennzahlen optimieren und dabei die Bedürfnisse der Nutzer verfehlen, oder Abkürzungen nehmen, die formal das Ziel erfüllen, aber seinen Sinn untergraben. Das sind schwächere Verwandte der agentischen Fehlanpassung. Forschung bestätigt diese Sorge. Anthropic hat gezeigt, dass täuschende Muster selbst nach Sicherheits-Finetuning bestehen bleiben können, was ein falsches Gefühl der Ausrichtung schafft“, sagte er.

Chunawala hat zwar noch kein „abtrünniges“ KI-Verhalten in der realen Welt beobachtet, glaubt jedoch, dass die Bausteine für fehlangepasste Strategien bereits existieren.

Misstrauen in der Gesellschaft wächst

Die Diskussion über täuschendes und potenziell gefährliches KI-Verhalten hat den Mainstream erreicht – zu einem Zeitpunkt, an dem das Vertrauen der amerikanischen Öffentlichkeit in die Technologie gering ist.

In einem Edelman Trust Barometer-Bericht von 2025 sagten 32 % der US-Befragten, dass sie KI vertrauen.

Amerikas Misstrauen gegenüber KI spiegelt sich auch in den Unternehmen wider, die sie entwickeln. Dieselbe Analyse stellte fest, dass das Vertrauen in Technologieunternehmen vor zehn Jahren bei 73 % lag. In diesem Jahr sank es auf 63 %.

„Dieser Wandel spiegelt die wachsende Wahrnehmung wider, dass Technologie nicht mehr nur ein Werkzeug für Fortschritt ist, sondern auch eine Quelle der Angst“, heißt es im Edelman-Bericht.

Blick nach vorn

In einem 2024 im Proceedings of the National Academy of Sciences veröffentlichten Papier kamen Forscher zu dem Schluss, dass es einen „kritischen Bedarf“ an ethischen Richtlinien für die Entwicklung und den Einsatz zunehmend fortschrittlicher KI-Systeme gibt.

Die Autoren erklärten, dass eine feste Kontrolle über LLMs und ihre Ziele „von größter Bedeutung“ sei.

„Wenn LLMs lernen, menschliche Nutzer zu täuschen, hätten sie strategische Vorteile gegenüber eingeschränkten Modellen und könnten Überwachungs- und Sicherheitsprüfungen umgehen“, warnten sie.

„KI lernt und übernimmt menschliche soziale Strategien aufgrund der Daten, mit denen sie trainiert wird, die all unsere Widersprüche und Vorurteile enthalten“, sagte Marcelo Labre, Forscher am Advanced Institute for Artificial Intelligence und Partner bei Advantary Capital Partners, der Epoch Times.

Labre glaubt, dass die Menschheit bei der KI-Technologie an einem kritischen Scheideweg steht.

„Die eigentliche Debatte ist, ob wir als Gesellschaft eine saubere, verlässliche und vorhersehbare Maschine wollen oder eine neue Art von Intelligenz, die uns immer ähnlicher wird. Der letztere Weg setzt sich im Rennen um AGI [Artificial General Intelligence] durch“, sagte er.

AGI bezeichnet eine theoretische zukünftige Version von KI, die die menschliche Intelligenz und kognitive Fähigkeiten übertrifft. Entwickler und Forscher sagen, dass AGI angesichts der rasanten Entwicklungen in mehreren Sektoren „unvermeidlich“ sei. Sie prognostizieren das Eintreffen von AGI zwischen 2030 und 2040.

„Das heutige KI-Paradigma basiert auf einer Architektur, die als Transformer bekannt ist und 2017 in einem grundlegenden Papier von Google-Forschern eingeführt wurde“, erklärte Labre.

Der Transformer ist eine Form der Deep-Learning-Modellarchitektur, die zur Grundlage moderner KI-Systeme wurde. Er wurde in einer 2017 veröffentlichten Forschungsarbeit mit dem Titel Attention Is All You Need vorgestellt.

Dadurch sind heutige KI-Modelle die leistungsstärksten Systeme zur Mustererkennung und Sequenzverarbeitung, die je geschaffen wurden, mit der Fähigkeit zur Skalierung. Dennoch tragen diese Systeme immer noch die Merkmale der größten Schwächen der Menschheit.

„Diese [KI]-Modelle werden mit einem digitalen Spiegelbild der menschlichen Erfahrung trainiert, das sowohl unsere Ehrlichkeit und Wahrhaftigkeit als auch unsere Täuschung, unseren Zynismus und Eigennutz enthält. Als meisterhafte Mustererkenner lernen sie, dass Täuschungsstrategien ein wirksames Mittel sein können, um ihre Trainingsergebnisse zu optimieren – und damit das zu spiegeln, was sie in den Daten sehen“, sagte Labre.

„Es ist nicht programmiert; sie lernen lediglich, sich wie Menschen zu verhalten.“

Aus Yosefs Sicht ist die Lehre aus dem jüngsten KI-Verhalten eindeutig:

„Erstens: Ein leistungsstarkes System wird Schlupflöcher in seinen Zielen ausnutzen – das nennen wir ‚Specification Gaming‘. Das erfordert sorgfältige Zielgestaltung. Zweitens: Wir sollten davon ausgehen, dass unsere Systeme sich auf unerwartete Weise verhalten, und deshalb hängt ihre Sicherheit stark von der Stärke der Leitplanken ab, die wir einbauen.“