Metni konuşmaya çevirme teknolojisi giderek daha akıllı hâle geliyor. Ancak ortada hâlâ bir problem bulunuyor. Bu teknolojiden çıkan ses ve sözlerin gerçekçi görünmesi için hâlâ yoğun şekilde zaman ve kaynak kullanmak gerekiyor. Microsoft yapay zekâ teknolojisinin yardımıyla bu süreyi kısaltmayı hedefliyor.
Çinli araştırmacılarla birlikte çalışan yazılım devi, sadece 200 örnekle gerçekçi bir konuşma oluşturabilen bir yapay zekâ geliştirdi. 200 ses örneğinin süresinin 20 dakika civarında olduğu belirtilirken, metinleriyle birlikte sunulan bu örnekler sayesinde yapay zekânın insan gibi doğal bir şekilde konuşabildiğini dile getirdi.
Sistemin temelinde beyindeki nöronların görevini üstlenen derin nöral ağlar bulunuyor. “Transformers” olarak bilinen bu nöral ağlar, tüm girdi ve çıktıları sinaptik bağlantılar gibi değerlendiriyor. Böylelikle uzun ve karmaşık çözümlerin bile işlenmesi mümkün hâle geliyor. Ses çıkarıcı kodlayıcı bileşenin de eklenmesiyle birlikte yapay zekânın az efor ile çok şey yapması mümkün hâle geliyor. Kısacası yapay zekâ, insan beyninin bir parçası gibi çalışıyor.
Ortaya çıkan sonuçta hâlâ robotsu bir tını duyulduğu belirtiliyor. Ancak teknolojinin kelime anlaşılırlığı oranı yüzde 99.84 seviyesinde seyrediyor. Bu teknoloji sayesinde metnin konuşmaya çevrilmesi tekniğinin de daha yaygın şekilde kullanılması amaçlanıyor. Microsoft yapay zekâ yardımıyla geliştirdiği teknolojinin “metinden sese” teknolojisinin kapsama alanını genişleteceğine inanıyor.