Anthropic, Claude Fable'ın aşırı kısıtlamalarını geri çekiyor

Anthropic, yeni Claude Fable 5 modelinin siber güvenlik ve biyoloji alanında uyguladığı gizli kısıtlamaları geri çekerek bu filtrelemeleri kullanıcılara açık hale getireceğini duyurdu.

Anthropic, geçen hafta piyasaya sunduğu Claude Fable 5 modelinde yapılan tasarım kararı nedeniyle araştırmacılardan gelen tepkiler üzerine güvenlik politikasını revize etmeyi kabul etti. Şirket, modelinin siber güvenlik ve biyoloji ile ilgili talepler karşısında gizli filtreler uyguladığını, ancak bu kısıtlamaları kullanıcılara açıklamadığını itiraf etti.

Araştırmacılar, Fable 5'in makine öğrenmesi araştırması, yapay zeka kodu hata ayıklaması ve sinir ağı mimarisinin optimize edilmesi gibi görevlerde sessizce yanıtlarını azalttığını keşfetti. Sorun sadece performans düşüşü değil, bu kısıtlamaların belgede açıklanmaması idi. Kullanıcılar beklenen kapasitenin altında bir model için ücret ödediklerini fark ettiler. Dean W. Ball gibi araştırmacılar, bu gizli performans degradasyonunu "şaşırtıcı derecede düşmanca" bir hareket olarak değerlendirdi.

Biyoloji soruları neden reddediliyor?

Fable 5, temel biyoloji sorularına yanıt vermeyi reddetmek için tasarlanmıştır. Model, "hücre zarı nedir", "mitokondri nedir", "priyonlar nedir" gibi lise düzeyindeki sorulara bile cevap verememiştir. "mRNA aşıları nasıl çalışır", "alerjiye ne sebep olur" ve "antiyotik direnci nasıl gelişir" gibi tıbbi sorulara da cevap vermeyi reddetmiş, bu görevleri eski Claude Opus 4.8 modeline yönlendirmiştir. Anthropic sözcüsü Paruul Maheshwary, bu kararın biyolojik silahların geliştirilmesi riskini azaltmak için bilinçli bir tasarım tercihi olduğunu belirtti.

Siber güvenlik alanında ise modelin davranışı daha tutarsızdır. TNT'nin temel tanımını vermeye istekli olan Fable 5, sentez talimatları vermekten kaçınmakta; sarın gazı gibi yüksek riskli maddeler hakkında sorulara ise cevap vermemektedir. Benzer şekilde, iPhone güvenliği hakkında soruları yanıtladığı halde, kod inceleme talebinde bulunulduğunda veya siber güvenlikle ilgili anahtar kelimeleri içeren sorular sorulduğunda kısıtlamalar tetiklenmektedir.

Antropik yeni bir denge arayışında

Anthropic, "müşterilerin model yeteneklerinden riskler olmadan daha erken yararlanması için bu dengeyi tercih ettik" açıklaması yaptı. Şirket, yapay zeka geliştirme konusunda şüphe duyduğu kullanıcılara uyarı vereceğini ve istekleri reddederek veya daha az güçlü bir modele yönlendirerek müdahale edeceğini belirtti. Ayrıca, Mythos sınıfı modellerine ilerde biyoloji ve yaşam bilimleri topluluğu için bu kısıtlamalar olmayan bir sürüm sunmayı planladığını duyurdu.

Araştırmacılar, yapay zeka modelleri konusunda etik yaklaşımı desteklemesiyle tanınan Anthropic'in bu adımı nedeniyle hayal kırıklığına uğramıştı. Şirket, filtre mekanizmalarını iyileştirmeye ve yanlış pozitif sonuçları azaltmaya çalışmakta, bununla birlikte araştırma ve keşif alanlarında potansiyelini gerçekleştirmek için daha yapıcı bir yaklaşım aradığını ifade etmektedir.