Ana Sayfa
Manşetler
Google DeepMind yeni teknolojisiyle videolar için ses efektleri ve diyalog oluşturuyor

Manşetler Teknoloji

Google DeepMind yeni teknolojisiyle videolar için ses efektleri ve diyalog oluşturuyor

19 Haziran 2024 16:00

Paylaş:

google deepmind

Google’ın yapay zeka laboratuvarı DeepMind, videolar için ses efektleri ve diyaloglar oluşturabilen yeni bir teknoloji geliştirdiğini açıkladı. Bu yenilikçi teknoloji, videoların ham piksellerini ve metin girdilerini kullanarak, görsel sahnelere uygun ses efektleri yaratabiliyor. DeepMind ekibi, bu projeyi “video-ile-ses” (V2A) teknolojisi olarak adlandırdı ve bu teknoloji, Google Veo ve OpenAI Sora gibi diğer video oluşturma araçlarıyla birlikte kullanılabiliyor.

Google DeepMind’ın Video-İle-Ses teknolojisi

DeepMind ekibi, blog yazılarında bu teknolojinin işleyişi hakkında detaylı bilgi verdi. Sistem, videoların ham piksellerini analiz ederek bu görsel veriyi metin girdileri ile birleştiriyor ve böylece ekranda olup bitenlere uygun ses efektleri oluşturabiliyor. Bu özellik, geleneksel sesli film ve sessiz film gibi farklı video türlerine de uygulanabiliyor.

Teknolojinin eğitimi, video, ses ve yapay zeka tarafından oluşturulan detaylı ses ve diyalog açıklamaları içeren anotasyonlar ile gerçekleştirildi. Bu sayede, teknoloji görsel sahneler ile spesifik sesleri ilişkilendirmeyi öğrendi. Bu özellik, DeepMind’ın mevcut video-ile-ses çözümlerinden farklı olmasını sağlıyor çünkü sistem, ham pikselleri anlayabiliyor ve metin girdisi eklemek isteğe bağlı.

Metin girdisi isteğe bağlı olsa da, kullanıcılar metin girdisi kullanarak nihai ürünü daha da şekillendirebiliyor ve daha gerçekçi ve doğru ses efektleri oluşturabiliyor. Pozitif girdiler kullanılarak istenen seslerin oluşturulması sağlanırken, negatif girdiler ile istenmeyen seslerden kaçınılabilir. Örneğin, “sinematik, gerilim, korku filmi, müzik, gerginlik, beton üzerinde ayak sesleri” gibi bir girdi kullanıldığında, sistem bu girdiye uygun sesler üretebiliyor.

İLGİNİZİ ÇEKEBİLİR

Uygun fiyatlı Apple Vision, iPhone veya Mac'e bağlı şekilde çalışacak

Araştırmacılar, V2A teknolojisinin mevcut sınırlamaları üzerinde çalıştıklarını kabul ediyorlar. Örneğin, kaynak videoda bozulmalar olduğunda, çıkış sesinin kalitesinde düşüş yaşanabiliyor. Ayrıca, oluşturulan diyalogların dudak senkronizasyonu üzerinde de geliştirmeler yapılması gerekiyor. DeepMind ekibi, teknolojinin piyasaya sürülmeden önce titiz güvenlik değerlendirmeleri ve testlerden geçirileceğini de taahhüt ediyor.

Sonuç olarak, DeepMind’ın bu yeni teknolojisi, videolar için ses efektleri ve diyaloglar oluşturma sürecinde devrim niteliğinde bir adım olabilir. Bu teknoloji, video prodüksiyon süreçlerini daha verimli ve yaratıcı hale getirebilir, aynı zamanda sessiz filmleri ve diğer geleneksel video türlerini de yeniden canlandırabilir. DeepMind’ın bu yenilikçi çalışması, yapay zekanın medya ve eğlence sektöründeki potansiyelini bir kez daha gözler önüne seriyor.

Teknoblog’u X, Flipboard, Google Haberler ve Instagram‘da takip et!

Yazar:Sabri Küstür

Teknolojiye olan ilgisi çocukluk yıllarına dayanıyor. Yüksek Elektronik ve Haberleşme Mühendisi. Elde ettiği mesleki bilgi ve deneyimi Teknoblog aracılığıyla paylaşmayı tercih etmiştir.