OpenAI Voice Engine: Yenilikçi ses üretim platformu

Yapay zekâ (AI) alanında sürekli yeniliklerle karşımıza çıkan OpenAI, şimdi de Voice Engine adını verdikleri ses üretim platformunu duyurdu. Bu platform, bir kullanıcının sadece 15 saniyelik ses kaydını kullanarak, o kişinin sesine benzer yapay zeka üretimi sesler oluşturabiliyor. Üretilen bu sesler, kullanıcının kendi dili dahil olmak üzere, çeşitli dillerde metin okuyabiliyor. OpenAI, bu teknolojinin, eğitimden sağlığa, birçok farklı sektörde iyiye hizmet edebilecek şekilde kullanılması için küçük ölçekli dağıtımlar yaparak deneyimlerini genişletiyor.

Şimdilik erişimi sınırlı olan bu platform, şimdilik Age of Learning gibi eğitim teknolojisi şirketleri, HeyGen gibi görsel hikaye anlatım platformları, Dimagi gibi ön sağlık yazılım üreticileri, Livox gibi AI iletişim uygulaması geliştiricileri ve Lifespan gibi sağlık sistemleri tarafından kullanılıyor. OpenAI, bu şirketlerin platformu kullanarak gerçekleştirdikleri denemelerden elde edilen örnekleri paylaşarak, teknolojinin potansiyel kullanım alanlarını gösteriyor.

Yapay zekânın ses üretimindeki rolü

OpenAI, Voice Engine teknolojisinin geliştirilmesine 2022’nin sonlarında başladığını ve bu teknolojinin, metinden-sese API’si için önceden belirlenmiş seslerin yanı sıra ChatGPT’nin Okuma Özelliği’ni de desteklediğini belirtiyor. Teknoloji, hem lisanslı hem de kamuya açık verilerin bir karışımı üzerinde eğitilmiş. Şu an için bu model, yalnızca yaklaşık 10 geliştiriciye sunulmuş durumda.

AI tabanlı metinden-sese dönüştürme, genellikle enstrümantal veya doğal sesler üzerine odaklanan üretken AI alanında gelişmeye devam ediyor. Ancak, ses üretimi üzerine odaklanan daha az sayıda çalışma var. OpenAI, bu alandaki etik olmayan kullanımları önlemek için ABD hükümetinin de adımlar attığını, örneğin, ABD Federal İletişim Komisyonu’nun Başkan Joe Biden’ın AI ile klonlanmış sesi kullanılarak yapılan spam robot aramalarını yasakladığını belirtiyor.

OpenAI’nin ortakları, insanları veya kuruluşları onların rızası olmadan taklit etmeme, orijinal konuşmacının “açık ve bilgilendirilmiş rızasını” alma, bireysel kullanıcıların kendi seslerini oluşturabilecekleri yöntemler geliştirmeme ve seslerin AI tarafından üretildiğinin dinleyicilere açıklanması gibi kullanım politikalarına uymayı kabul etmişler. Öte yandan OpenAI, ses kayıtlarının kökenini izleyebilmek ve ses kullanımını aktif olarak izleyebilmek için ses kayıtlarına dijital filigran da ekliyor.

OpenAI, bu tür araçlar etrafındaki riskleri sınırlayabilecek bazı adımlar öneriyor. Bunlar arasında, banka hesaplarına erişim için ses tabanlı doğrulamanın kademeli olarak kaldırılması, insanların seslerinin yapay zekâda kullanımını koruyacak politikalar, yapay zekâ tabanlı sahte üretimler hakkında daha fazla eğitim ve AI içeriğinin izlenmesi için takip sistemlerinin geliştirilmesi bulunuyor.