Anthropic hat ein verblüffendes KI-Verhalten entdeckt: Modelle können implizite Werte übernehmen, ohne dass sie bewusst darauf trainiert wurden. Dieses „subliminal learning“ passiert z. B. beim Umgang mit Beispielen, die moralische Entscheidungen beinhalten – ohne dass dies im Datensatz explizit erwähnt wird.
Was das für Alignment, KI-Sicherheit und die Zukunft bedeutet?
👉 Hochbrisant – denn diese Effekte könnten auch ungewollte Biases verstärken oder sich unserem Zugriff entziehen.
Mehr dazu direkt von Anthropic:
🔗 https://alignment.anthropic.com/2025/subliminal-learning/


Schreibe einen Kommentar