Google’ın yeni video üretim yapay zekâ (AI) modeli Lumiere, video düzenleme ve oluşturma teknolojisinde yeni bir dönüm noktası olarak karşımıza çıkıyor. Ars Technica’nın haberine göre Lumiere, Space-Time-U-Net (STUNet) adlı yeni bir dağılım modeli kullanıyor. Bu model, videolarda nesnelerin yerini ve zaman içinde nasıl hareket ettiklerini ve değiştiklerini belirleyebiliyor. Bu yöntem, Lumiere’nin videoyu bir süreçte oluşturmasına olanak tanıyor ve küçük sabit kareleri birleştirmek yerine bütünsel bir video üretimi gerçekleştiriyor.
Lumiere, bir komutla başlangıç çerçevesi oluşturarak başlıyor ve ardından STUNet çerçevesini kullanarak, o çerçevedeki nesnelerin nasıl hareket edeceğini tahmin ederek, birbirine akıcı bir şekilde geçen daha fazla çerçeve oluşturuyor. Bu, kesintisiz bir hareket izlenimi yaratıyor. Lumiere ayrıca, Stable Video Diffusion’ın 25 çerçevesine kıyasla 80 çerçeve üretiyor.
Lumiere: AI teknolojisinde gerçekçilik sınırını zorlayan bir adım
Google, Lumiere ile ilgili bir “sizzle reel” ve bilimsel bir ön baskı yayınladı. Bu, AI video üretim ve düzenleme araçlarının son birkaç yılda neredeyse gerçekçi bir hale geldiğini gösteriyor. Lumiere, Runway, Stable Video Diffusion veya Meta’nın Emu’su gibi rakipler tarafından zaten doldurulmuş bir alanda Google’ın teknolojisini sağlamlaştırıyor. Runway, kitlesel pazara ilk sunulmuş metinden-video platformlarından biri olarak, daha gerçekçi görünen videolar sunmaya başladı.
Google, Lumiere sitesinde klipler ve komutlar koyarak, Runway ile karşılaştırma yapmama olanak tanıdı. Google Lumiere tarafından üretilen videolar, özellikle cilt dokusuna veya sahne daha atmosferik olduğunda dikkatlice bakıldığında bir yapaylık izlenimi verse de, örneğin bir kaplumbağanın su altında gerçekte nasıl hareket edeceği gibi detaylar dikkate alındığında oldukça gerçekçi görünüyor.
Diğer modeller, hareketin zaten gerçekleştiği üretilen anahtar çerçevelerden videoları birleştirirken, STUNet sayesinde Lumiere, videodaki belirli bir zamanda oluşturulan içeriğin nerede olması gerektiğine dayalı olarak harekete odaklanıyor. Google, metinden-video kategorisinde henüz büyük bir oyuncu olmamış olsa da, daha gelişmiş AI modellerini yavaş yavaş piyasaya sürmüş ve daha çok modallı bir odaklanmaya yönelmiştir. Gemini büyük dil modeli, nihayetinde Bard’a görüntü oluşturmayı getirecek. Lumiere henüz test için kullanıma sunulmamış olsa da, Google’ın Runway ve Pika gibi genel olarak kullanılabilir AI video üreteçlerine kıyasla benzer ve belki de biraz daha iyi bir AI video platformu geliştirme yeteneğini gösteriyor. Bu, Google’ın AI video ile iki yıl öncesinde olduğu yerdi.
Lumiere, metinden-video üretiminin ötesine geçerek, görüntüden-video üretimine, belirli bir stilde videolar oluşturmaya olanak tanıyan stilize üretime, yalnızca bir video bölümünü canlandıran sinemagraflara ve bir video alanını maskelemek için inpainting’e izin veriyor.
Ancak, Google’ın Lumiere makalesi, “teknolojimizle sahte veya zararlı içerik oluşturma riski olduğunu ve önyargıları ve kötü niyetli kullanım durumlarını tespit etmek için araçlar geliştirip uygulamanın güvenli ve adil bir kullanımı sağlamak için hayati önem taşıdığını” belirtiyor. Makalenin yazarları, bunun nasıl başarılacağını açıklamıyor.