Subliminal Learning: Wie KI heimlich Werte überträgt

Subliminal Learning: Wie KI heimlich Werte überträgt

Anthropic hat ein verblüffendes KI-Verhalten entdeckt: Modelle können implizite Werte übernehmen, ohne dass sie bewusst darauf trainiert wurden. Dieses „subliminal learning“ passiert z. B. beim Umgang mit Beispielen, die moralische Entscheidungen beinhalten – ohne dass dies im Datensatz explizit erwähnt wird.

Was das für Alignment, KI-Sicherheit und die Zukunft bedeutet?
👉 Hochbrisant – denn diese Effekte könnten auch ungewollte Biases verstärken oder sich unserem Zugriff entziehen.

Mehr dazu direkt von Anthropic:
🔗 https://alignment.anthropic.com/2025/subliminal-learning/

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert