ManşetlerTeknoloji

Google DeepMind yeni teknolojisiyle videolar için ses efektleri ve diyalog oluşturuyor

google deepmind

Google’ın yapay zeka laboratuvarı DeepMind, videolar için ses efektleri ve diyaloglar oluşturabilen yeni bir teknoloji geliştirdiğini açıkladı. Bu yenilikçi teknoloji, videoların ham piksellerini ve metin girdilerini kullanarak, görsel sahnelere uygun ses efektleri yaratabiliyor. DeepMind ekibi, bu projeyi “video-ile-ses” (V2A) teknolojisi olarak adlandırdı ve bu teknoloji, Google Veo ve OpenAI Sora gibi diğer video oluşturma araçlarıyla birlikte kullanılabiliyor.

Google DeepMind’ın Video-İle-Ses teknolojisi

DeepMind ekibi, blog yazılarında bu teknolojinin işleyişi hakkında detaylı bilgi verdi. Sistem, videoların ham piksellerini analiz ederek bu görsel veriyi metin girdileri ile birleştiriyor ve böylece ekranda olup bitenlere uygun ses efektleri oluşturabiliyor. Bu özellik, geleneksel sesli film ve sessiz film gibi farklı video türlerine de uygulanabiliyor.

Teknolojinin eğitimi, video, ses ve yapay zeka tarafından oluşturulan detaylı ses ve diyalog açıklamaları içeren anotasyonlar ile gerçekleştirildi. Bu sayede, teknoloji görsel sahneler ile spesifik sesleri ilişkilendirmeyi öğrendi. Bu özellik, DeepMind’ın mevcut video-ile-ses çözümlerinden farklı olmasını sağlıyor çünkü sistem, ham pikselleri anlayabiliyor ve metin girdisi eklemek isteğe bağlı.

Metin girdisi isteğe bağlı olsa da, kullanıcılar metin girdisi kullanarak nihai ürünü daha da şekillendirebiliyor ve daha gerçekçi ve doğru ses efektleri oluşturabiliyor. Pozitif girdiler kullanılarak istenen seslerin oluşturulması sağlanırken, negatif girdiler ile istenmeyen seslerden kaçınılabilir. Örneğin, “sinematik, gerilim, korku filmi, müzik, gerginlik, beton üzerinde ayak sesleri” gibi bir girdi kullanıldığında, sistem bu girdiye uygun sesler üretebiliyor.

Araştırmacılar, V2A teknolojisinin mevcut sınırlamaları üzerinde çalıştıklarını kabul ediyorlar. Örneğin, kaynak videoda bozulmalar olduğunda, çıkış sesinin kalitesinde düşüş yaşanabiliyor. Ayrıca, oluşturulan diyalogların dudak senkronizasyonu üzerinde de geliştirmeler yapılması gerekiyor. DeepMind ekibi, teknolojinin piyasaya sürülmeden önce titiz güvenlik değerlendirmeleri ve testlerden geçirileceğini de taahhüt ediyor.

Sonuç olarak, DeepMind’ın bu yeni teknolojisi, videolar için ses efektleri ve diyaloglar oluşturma sürecinde devrim niteliğinde bir adım olabilir. Bu teknoloji, video prodüksiyon süreçlerini daha verimli ve yaratıcı hale getirebilir, aynı zamanda sessiz filmleri ve diğer geleneksel video türlerini de yeniden canlandırabilir. DeepMind’ın bu yenilikçi çalışması, yapay zekanın medya ve eğlence sektöründeki potansiyelini bir kez daha gözler önüne seriyor.