Google, yapay zeka (AI) tarafından üretilen metinlerin daha kolay tanımlanmasını sağlamak amacıyla geliştirdiği SynthID adlı watermark teknolojisini açık kaynaklı hale getirdiğini duyurdu. Bu teknoloji, Google’ın Sorumlu Üretici Yapay Zeka Araç Kiti aracılığıyla artık geliştiricilerin kullanımına sunuluyor.
Google DeepMind araştırma biriminin başkan yardımcısı Pushmeet Kohli, MIT Technology Review’e yaptığı açıklamada, “Diğer yapay zeka geliştiricileri de bu teknolojiyi kullanarak kendi büyük dil modellerinden (LLM) çıkan metinlerin tespit edilmesini sağlayabilecek, bu da daha fazla geliştiricinin yapay zekayı sorumlu bir şekilde inşa etmesini kolaylaştıracak” dedi.
Son dönemde, büyük dil modellerinin siyasi dezenformasyon yayma, rızasız cinsel içerik oluşturma ve diğer zararlı amaçlarla kullanılması, watermark teknolojilerini daha da önemli hale getirdi. Örneğin, Kaliforniya eyaleti yapay zeka watermark kullanımını zorunlu hale getirmeyi tartışırken, Çin hükümeti bu zorunluluğu geçen yıl yürürlüğe koydu. Ancak bu araçlar hâlâ geliştirme aşamasında.
Geçen ağustos ayında tanıtılan SynthID, yapay zeka tarafından üretilen çıktılara görünmez bir watermark ekleyerek bu içeriklerin tespit edilmesini sağlıyor. Teknoloji, görüntü, ses, video ve metin gibi çeşitli formatlarda çalışabiliyor. Google’a göre, SynthID’nin metin versiyonu, çıktıyı insan gözüyle algılanamayacak şekilde biraz daha az olası hale getirerek çalışıyor. Bu sayede metnin suistimal edilmeden güvenli şekilde kullanılması amaçlanıyor.
Bir LLM, metni birer birer token adı verilen küçük birimler halinde üretir. Bu tokenlar tek bir karakteri, kelimeyi veya bir ifadenin parçasını temsil edebilir. Bir metin dizisi oluşturmak için model, bir sonraki en olası token’ı tahmin eder. Bu tahminler önceki kelimelere ve her bir olası token’a atanan olasılık skorlarına dayanır.
Örneğin, “En sevdiğim tropikal meyveler __.” ifadesinde, LLM bu boşluğu “mango”, “liçi”, “papaya” veya “durian” gibi tokenlarla doldurabilir ve her bir token’a bir olasılık skoru atanır. SynthID, seçilecek token’ların olasılık skorlarını, çıktının kalitesini, doğruluğunu ve yaratıcılığını bozmadan ayarlayabilir.
Bu süreç, üretilen metin boyunca tekrarlanır ve böylece bir cümlede onlarca, bir sayfada ise yüzlerce ayarlanmış olasılık skoru oluşur. Modelin kelime tercihleri ile ayarlanan olasılık skorlarının nihai deseni, watermark olarak kabul edilir.
Google sistemi Gemini’ye entegre etti
Google, sistemin halihazırda Gemini sohbet robotuna entegre edildiğini ve watermarking sürecinin metnin kalitesi, doğruluğu, yaratıcılığı veya hızı üzerinde olumsuz bir etki yapmadığını iddia ediyor. Üç cümle kadar kısa metinlerde bile çalışabilen bu teknoloji, kırpılmış, yeniden yazılmış veya değiştirilmiş metinlerde dahi etkili olabiliyor. Ancak kısa metinlerde, yeniden yazılmış içeriklerde ve bilgi sorularına verilen yanıtlarda bu sistem zorlanabiliyor.
Google, mayıs ayında yayımladığı bir blog yazısında, “SynthID, yapay zeka tarafından üretilen içeriği tespit etmek için sihirli bir çözüm değil,” diye belirtmişti. “Ancak daha güvenilir yapay zeka tanımlama araçları geliştirmek için önemli bir yapı taşıdır ve milyonlarca insanın yapay zeka tarafından üretilen içeriklerle nasıl etkileşim kuracağına dair bilinçli kararlar vermesine yardımcı olabilir.”