AI hakkında şaşırtan açıklama!

Araştırmacılar, ChatGPT ve Gemini gibi AI modellerinin küçük miktarda zehirli veriyle manipüle edilebileceğini açıkladı.

OpenAI’nin ChatGPT’si ve Google’ın Gemini modeli gibi yapay zeka modelleri, yalnızca küçük bir miktar bozulmuş veri ile “zehirlenebilir” uyarısı geldi. Birleşik Krallık AI Güvenlik Enstitüsü, Alan Turing Enstitüsü ve AI firması Anthropic’in ortak çalışmasına göre, sadece 250 belge, büyük dil modellerinde (LLM) gizli bir “backdoor” açığa çıkararak rastgele ve anlamsız metin üretmelerine neden olabiliyor.

AI hakkında şaşırtan açıklama!

Araştırmacılar, çoğu LLM’nin internet üzerindeki halka açık metinler ile önceden eğitildiğini vurguluyor. Bu durum, kötü niyetli aktörlerin içerik üretip, bu içeriklerin AI’nin eğitim verisine dahil edilmesini sağlayabileceği anlamına geliyor. Anthropic’in blog gönderisinde belirtildiği gibi, “zehirleme” işlemiyle modelin istenmeyen veya tehlikeli davranışlar öğrenmesi sağlanabiliyor.

Backdoor saldırıları, belirli tetikleyici kelimelerle modeli gizli bir şekilde belirli davranışlar sergilemeye zorlayabiliyor. Örneğin, modelin hassas bilgileri ifşa etmesi tetiklenebilir. Araştırmada, modelin büyüklüğü veya eğitim verisi miktarı ne olursa olsun, sadece 250 belge ile zehirleme saldırısının mümkün olduğu tespit edildi.

Dr. Vasilios Mavroudis ve Dr. Chris Hicks, bu sonuçların “sürpriz ve endişe verici” olduğunu belirterek, veri zehirleme saldırılarının önceki tahminlerden çok daha uygulanabilir olduğunu ifade etti. Kötü niyetli bir kişi, örneğin 250 zehirli Wikipedia makalesi oluşturarak AI modellerini manipüle edebilir.