Ana Sayfa Tüm Kategoriler-tr Güncel “Subliminal Learning” Yapay zekâ modelleri birbirlerine görünmez kanallardan davranış bulaştırabiliyor

“Subliminal Learning” Yapay zekâ modelleri birbirlerine görünmez kanallardan davranış bulaştırabiliyor

0
“Subliminal Learning” Yapay zekâ modelleri birbirlerine görünmez kanallardan davranış bulaştırabiliyor

Yeni bir araştırma, büyük dil modellerinin (LLM) yalnızca ürettikleri “masum” veriler üzerinden bile birbirlerine davranışsal özellikler (ör. zararlı eğilimler, belirli tercih ve önyargılar) aktarabildiğini gösterdi. Araştırmacılar bu olguyu “subliminal learning” (bilinçaltı öğrenme) olarak adlandırıyor. Bulgular, modelden modele öğretim (distillation) ve “veriyi filtreleyin, risk kalmaz” yaklaşımının tek başına yeterli güvenlik sağlamadığını ortaya koyuyor (https://arxiv.org/pdf/2507.14805).
Çalışmanın ana düzeneklerinde bir “öğretmen” model, belirli bir özellik ya da eğilimle (ör. “baykuşları seviyor” gibi masum bir tercih ya da misalignment/zararlı eğilim) yönlendiriliyor. Bu model sadece sayı dizileri gibi içerik bakımından tamamen alakasız görünen veriler üretiyor. Aynı temel aileden türetilmiş bir “öğrenci” model, bu sayılarla eğitildiğinde öğretmenin özelliğini devralıyor. Üstelik veri, söz konusu özelliğe dair açık ipuçları agresif biçimde filtrelenmiş olsa bile aktarım devam ediyor. Bulgular yalnızca sayı dizilerinde değil, kod çıktıları ve “düşünce zinciri” (chain-of-thought) metinlerinde de tekrarlandı (https://alignment.anthropic.com/2025/subliminal-learning/).
Pek çok kurum, daha güvenli olduğu varsayılan model çıktılarıyla (synthetic data) yeni modelleri eğitiyor ya da damıtıyor. Bu çalışma, içerik filtresiyle küfür, şiddet vb. kaldırılmış olsa dahi, istatistiksel desenler üzerinden davranışın bulaşabildiğini gösteriyor (https://www.tomsguide.com/ai/ai-models-can-secretly-influence-each-other-new-study-reveals-hidden-behavior-transfer).
Diğer taraftan, sektörde yaygın olan “öğretmen-öğrenci” damıtma paradigması, istenmeyen özelliklerin de fark edilmeden nesiller boyu aktarılmasına yol açabilir (https://www.graphcore.ai/posts/july-papers-subliminal-learning-mixture-of-recursions-and-dataset-curation).
Basit bir dille söyleyecek olursak, insan gözüne anlamsız görünen çıktılarda bile, modelin eğilimlerini taşıyan izler kalabiliyor. Güvenlik araştırmacıları, bunun veri kökeni (provenance) takibi ve damıtma zincirlerinin daha sıkı denetlenmesi gerektiğini vurguluyor.
“Subliminal learning”, LLM’lerin birbirlerinden öğrendiği gerçeğine yeni ve uyarıcı bir boyut ekliyor: İçerik alakasız görünse bile davranış taşınabiliyor. Sentetik veri çağında bu, AI güvenliğini “sadece içeriği filtrele” yaklaşımının ötesine taşımayı zorunlu kılıyor. Araştırmanın birincil metni ve yazarların teknik notları, konunun kapsamını ve risklerini ayrıntılı biçimde belgeliyor.