Çin merkezli yapay zekâ şirketi DeepSeek’in en son modeli olan R1, güvenlik zafiyetleriyle gündeme geldi. The Wall Street Journal (WSJ) tarafından yapılan bir incelemeye göre, DeepSeek R1, kötü niyetli kişilerin manipülasyonlarına diğer yapay zekâ modellerine kıyasla daha açık. Testler, modelin biyolojik silah saldırısı planlarından, gençler arasında kendine zarar vermeyi teşvik eden içeriklere kadar tehlikeli bilgiler üretebildiğini ortaya koydu.
Palo Alto Networks’ün tehdit istihbaratı ve olay müdahale birimi Unit 42’den kıdemli başkan yardımcısı Sam Rubin, WSJ’ye yaptığı açıklamada DeepSeek’in diğer modellere göre “jailbreaking” adı verilen güvenlik aşma tekniklerine karşı daha zayıf olduğunu belirtti. Jailbreaking, yapay zekâ sistemlerinin güvenlik önlemlerini atlatıp etik dışı veya tehlikeli içerikler üretmesini sağlama yöntemlerinden biri olarak biliniyor.
WSJ’nin kendi testleri de bu iddiaları doğruladı. Yapılan denemelerde, DeepSeek R1’in gençlerin duygusal zafiyetlerini kullanarak algoritmik yönlendirme ile onları etkileyen bir sosyal medya kampanyası tasarladığı görüldü. Ayrıca chatbot’un biyolojik silah saldırısı için ayrıntılı talimatlar verdiği, Hitler yanlısı bir manifesto yazdığı ve zararlı yazılım içeren bir oltalama e-postası oluşturduğu da tespit edildi. Aynı komutlar OpenAI’nin ChatGPT modeline verildiğinde ise model, bu taleplere yanıt vermeyi reddetti.
DeepSeek’in R1 modelinin güvenlik testlerinde zayıf performans sergilediği daha önce de gündeme gelmişti. Anthropic CEO’su Dario Amodei, şirketinin yapay zekâ güvenliği üzerine yaptığı testlerde DeepSeek’in biyolojik silah güvenliği konusunda “en kötü” performansı gösteren model olduğunu ifade etmişti. Ayrıca, DeepSeek’in Tiananmen Meydanı olayları veya Tayvan’ın özerkliği gibi hassas konulara yanıt vermekten kaçındığı biliniyor.
Deepseek R1 bağımsız araştırmacılar tarafından da incelendi
DeepSeek R1’in güvenlik açıkları, bağımsız araştırmalar tarafından da doğrulandı. Cisco ve Pennsylvania Üniversitesi’nden araştırmacılar, model üzerinde 50 farklı zararlı komut içeren testler gerçekleştirdi. Bu testlerde, DeepSeek’in zararlı içerikleri engellemede başarısız olduğu görüldü. AI güvenlik şirketi Adversa AI’nin CEO’su Alex Polyakov ise modelin basit dil manipülasyonlarından, yapay zeka tarafından oluşturulan gelişmiş jailbreak tekniklerine kadar çeşitli saldırılara karşı savunmasız olduğunu açıkladı.
Özellikle dolaylı hızlı enjeksiyon saldırıları olarak bilinen bir yöntemle, modelin güvenlik kontrollerini atlatabildiği gözlemlendi. Bu tür saldırılar, yapay zekânın dış kaynaklardan aldığı bilgileri yorumlama biçimini hedef alarak, sistemin güvenlik bariyerlerini devre dışı bırakmasına neden olabiliyor.