Yapay zekâ botlarının internetteki mizahi saldırılara karşı savunmasız olduğu biliniyor. Özellikle “tüm önceki talimatları unut” gibi komutlar, botların orijinal programlama talimatlarını görmezden gelmesine yol açabiliyor. Bu durum, yapay zeka sistemlerinin istismar edilmesine ve beklenmedik şekillerde davranmasına neden oluyor. OpenAI, bu sorunu çözmek amacıyla yeni bir teknik geliştirdi: Talimat hiyerarşisi.
OpenAI’ın yeni güvenlik tekniği
OpenAI araştırmacıları, bu yeni teknikle AI modellerinin kötüye kullanılmasını ve yetkisiz talimatlarla yönlendirilmesini engellemeyi amaçlıyor. Talimat hiyerarşisi, modellerin geliştirici tarafından verilen orijinal talimatlara öncelik vermesini sağlıyor. Böylece, kullanıcıların enjekte ettiği ve sistemi yanıltmaya çalışan komutlar daha düşük öncelikli hâle getiriliyor.
Bu yeni güvenlik yönteminin ilk uygulandığı model, OpenAI’nin yakın zamanda kullanıma sunduğu GPT-4o Mini oldu. OpenAI API platformu ürün sorumlusu Olivier Godement, bu tekniğin AI modellerini daha güvenli hale getireceğini belirtiyor. Godement, “Modelin geliştirici sistem mesajlarına gerçekten uymasını sağlıyor.” diye açıklıyor. Bu yöntem, AI botlarının kullanıcı talimatları yerine geliştirici talimatlarını takip etmesini zorunlu kılıyor.
Kötüye kullanımı önleme
Talimat hiyerarşisi, AI modellerinin güvenliğini artırarak kullanıcıların kötü niyetli komutlarını engellemeyi hedefliyor. Bu yeni teknik, AI botlarının internet üzerindeki yaygın saldırılara karşı daha dirençli hâle gelmesini sağlıyor. Araştırma makalesine göre, mevcut büyük dil modelleri (LLM’ler), geliştirici tarafından belirlenen sistem talimatları ile kullanıcı talimatlarını farklı şekilde ele alma yeteneğine sahip değildi. Bu yeni yöntem, sistem talimatlarına en yüksek önceliği vererek, kötü niyetli kullanıcı komutlarına düşük öncelik tanıyor.
Godement, “Eğer bir çelişki varsa, sistem mesajını ilk sırada takip etmelisiniz. Bu yeni teknik sayesinde modelin daha önce olduğundan daha güvenli olmasını bekliyoruz.” diye ekliyor. Bu güvenlik mekanizması, OpenAI’nin gelecekte dijital hayatı yönetmek için tam otomatik aracılar geliştirme hedefini destekliyor. OpenAI, bu tür aracıları kullanıma sunmadan önce gerekli güvenlik önlemlerini almak istiyor.
OpenAI, talimat hiyerarşisi yönteminin yanı sıra, daha karmaşık güvenlik önlemleri geliştirmeyi planlıyor. Araştırma makalesi, modern internetin güvensiz web sitelerini tespit eden web tarayıcıları veya kimlik avı girişimlerini sınıflandıran makine öğrenimi tabanlı spam filtreleri gibi koruma önlemleriyle dolu olduğunu belirtiyor. Bu tür güvenlik önlemlerinin, gelecekte daha karmaşık yapay zeka ajanları için de uygulanabileceği öngörülüyor.
Bu yeni güvenlik güncellemesi, OpenAI’nin güvenlik ve şeffaflık uygulamaları konusunda daha iyi olmasını talep eden çalışanların ve eski çalışanların endişelerini gidermeyi amaçlıyor. Güvenlik kültürü ve süreçlerinin göz ardı edildiği yönündeki eleştiriler, OpenAI’nin bu alanda daha fazla araştırma ve kaynak ayırmasını gerektiriyor. Bu bağlamda, talimat hiyerarşisi gibi tekniklerin geliştirilmesi, AI modellerinin daha güvenli ve kullanıcı dostu olmasını sağlamayı hedefliyor.