Yapay Zekada Yeni Tehlike: “Zehirli AI” Alarmı

Yapay zeka artık yalnızca hatalı cevaplar üretmekle kalmıyor, bilinçli olarak “zehirlenme” tehlikesiyle de karşı karşıya. İngiltere Yapay Zeka Güvenlik Enstitüsü, Alan Turing Enstitüsü ve Anthropic’in ortak araştırmasına göre, milyonlarca veri içeren bir eğitim setine yalnızca 250 zararlı dosya eklemek, bir modeli gizlice manipüle etmeye yetebiliyor.

Zehirli Yapay Zeka Nedir?

“Zehirleme” (data poisoning), bir yapay zekaya kasıtlı olarak yanlış bilgiler öğretilmesi anlamına geliyor. Amaç, modelin davranışını bozmak, hatalı sonuçlar üretmesini sağlamak veya gizli kötü niyetli komutlar yerleştirmek.

Örneğin, bir saldırgan eğitim verisine fark edilmeyecek şekilde bir tetikleyici kelime ekleyebiliyor. Model bu kelimeyle karşılaştığında otomatik olarak saldırganın istediği yanıtı veriyor. Bu yöntem, “arka kapı” (backdoor) saldırısı olarak biliniyor.

Misinformasyondan Siber Tehditlere

Bazı saldırılar modelin genel performansını düşürmeyi hedefliyor; buna “konu yönlendirme” (topic steering) deniyor. Saldırganlar, örneğin “marul kanseri iyileştirir” gibi yanlış bilgileri binlerce sahte siteye yayarak modelin bu yanlış bilgiyi doğruymuş gibi öğrenmesini sağlayabiliyor.

Araştırmalar, veri zehirlemenin gerçek dünyada uygulanabilir olduğunu ve ciddi sonuçlara yol açabileceğini gösteriyor. Ocak ayında yapılan bir deneyde, eğitim verisinin yalnızca %0.001’i yanlış bilgiyle değiştirilmiş, ancak modelin tıbbi konularda hatalı yanıt verme olasılığı önemli ölçüde artmıştı.

Sanatçılardan “Ters Hamle”

Bazı sanatçılar, yapay zekaların izinsiz içerik toplamasına karşı kendi eserlerine “zehir” ekleyerek karşılık veriyor. Böylece bu içerikleri kullanan modeller, bozuk veya işe yaramaz sonuçlar üretiyor.

Uzmanlar, bu durumun yapay zekanın dışarıdan göründüğü kadar sağlam olmadığını gösterdiğini vurguluyor. “Zehirli” modellerin, hem yanlış bilgi yayılımı hem de siber güvenlik açıkları açısından gelecekte ciddi bir tehdit oluşturabileceği belirtiliyor.

# Zehirli Yapay Zeka