Start Alle Kategorien-de Aktuell Unterschwelliges Lernen: Künstliche Intelligenzmodelle können sich gegenseitig über unsichtbare Kanäle mit Verhalten infizieren

Unterschwelliges Lernen: Künstliche Intelligenzmodelle können sich gegenseitig über unsichtbare Kanäle mit Verhalten infizieren

0
Unterschwelliges Lernen: Künstliche Intelligenzmodelle können sich gegenseitig über unsichtbare Kanäle mit Verhalten infizieren

Neue Forschungsergebnisse zeigen, dass große Sprachmodelle (LLMs) Verhaltensmerkmale (z. B. schädliche Tendenzen, spezifische Vorlieben und Vorurteile) untereinander übertragen können, selbst über die von ihnen generierten harmlosen Daten. Forscher nennen dieses Phänomen „unterschwelliges Lernen“. Die Ergebnisse zeigen, dass Modell-zu-Modell-Training (Destillation) und der Ansatz „Daten filtern, kein Risiko“ allein keine ausreichende Sicherheit bieten (https://arxiv.org/pdf/2507.14805).
In den wichtigsten Studienaufbauten wird ein „Lehrer“-Modell von einem bestimmten Merkmal oder einer Voreingenommenheit geleitet (z. B. einer harmlosen Vorliebe wie „liebt Eulen“ oder einer Fehlausrichtung/schädlichen Voreingenommenheit). Dieses Modell generiert lediglich scheinbar nicht zusammenhängende Daten, wie z. B. Zahlenfolgen. Ein „Schüler“-Modell, das aus derselben Basisfamilie stammt, übernimmt die Eigenschaften des Lehrers, wenn es mit diesen Zahlen trainiert wird. Darüber hinaus setzt sich die Übertragung auch dann fort, wenn die Daten intensiv nach offensichtlichen Hinweisen auf das betreffende Merkmal gefiltert werden. Die Ergebnisse wurden nicht nur in numerischen Sequenzen, sondern auch in Code-Ausgaben und Gedankenkettentexten repliziert (https://alignment.anthropic.com/2025/subliminal-learning/).
Viele Organisationen trainieren oder destillieren neue Modelle mit vermeintlich sichereren Modellausgaben (synthetischen Daten). Diese Studie zeigt, dass Verhalten auch dann noch durch statistische Muster übertragen werden kann, wenn Schimpfwörter, Gewalt und andere Elemente durch Inhaltsfilter entfernt werden (https://www.tomsguide.com/ai/ai-models-can-secretly-influence-each-other-new-study-reveals-hidden-behavior-transfer).
Andererseits kann das in der Branche vorherrschende „Lehrer-Schüler“-Destillationsparadigma zu einer unentdeckten Übertragung unerwünschter Eigenschaften über Generationen hinweg führen (https://www.graphcore.ai/posts/july-papers-subliminal-learning-mixture-of-recursions-and-dataset-curation).
Vereinfacht ausgedrückt: Selbst Ergebnisse, die für das menschliche Auge bedeutungslos erscheinen, können Spuren der Modellverzerrungen enthalten. Sicherheitsforscher betonen die Notwendigkeit der Datenherkunftsverfolgung und einer strengeren Prüfung der Destillationsketten.
„Unterschwelliges Lernen“ fügt der Tatsache, dass LLMs voneinander lernen, eine neue und alarmierende Dimension hinzu: Verhalten kann übernommen werden, selbst wenn der Inhalt irrelevant erscheint. Im Zeitalter synthetischer Daten erfordert dies, die KI-Sicherheit über den Ansatz des „bloßen Filterns des Inhalts“ hinaus zu erweitern. Der Haupttext der Studie und die technischen Hinweise der Autoren dokumentieren Umfang und Risiken ausführlich.