Çinli arama devi Baidu, yılın ilk günlerinde Deep Voice adını verdiği sisteminin duyurusunu yapmıştı. Derin öğrenme teknolojisinden yararlanan sistem ile yazı konuşmaya dönüştürülebiliyor. Mayıs ayında tanıtılan Deep Voice 2’nin ardından Baidu Deep Voice 3 ile yeteneklerini geliştirmeyi sürdürüyor.
Deep Voice’un ilk versiyonu kısa cümleleri, gerçek bir insandan pek de farkı olmayan bir sesle söyleyebiliyordu. Her seferinde bir sesi tanıyabilen Deep Voice’u farklı seslerde eğitebilmek için çok uzun bir süre gerekiyordu. Mayıs ayında duyurulan Deep Voice 2’de ise bu süre yarım saate inmişti. Yenilenen sistem, yüzlerce farklı aksanı da öğrenebilir hâle gelmişti.
Baidu’nun yeni duyurduğu Deep Voice 3 ise sistemin nihai versiyonu olma niteliğini taşıyor. Şirketten yapılan açıklamada yeni versiyonun 2500 farklı sesi tanıyabildiği ve bunun için her sese sadece 30 dakikalık bir süre ayırmanın yeterli olduğu belirtildi.
Baidu’nun duyurusunda farklı sesleri türetebilen bir sistemin varlığının çok sayıda kapıyı açtığına ve başka zamanlarda uygulanabilir olmayan senaryoları uygulanabilir kıldığına dikkat çekildi. Baidu’nun geliştirdiği sistem sayesinde sesli bir kitaptaki tüm karakterler başka bir sesle konuşabiliyor. Böylelikle kullanıcı deneyiminin gelişmesi mümkün hâle geliyor.
Baidu Deep Voice 3 sentetik sesler üretiyor
Baidu Deep Voice 3 tarafından üretilen sesler, sistemin önceki versiyonlarından farklı olarak, kulağa sentetik geliyor. Şirketten yapılan açıklamada, nihai amacın sentetik sesler olmadığının altı çizildi. Baidu, sadece bir veya iki farklı ses üretmediğini hatırlattı. Şirket taklit edilen aksan ve ses sayısı arttıkça sentetik tınının arttığını, ancak gelecekte bu durumun düzeltilmesi için çalışıldığını belirtti.