Google, yapay zekâ çözümlerini genişletmeye devam ediyor. Şirketin yeni aracı Whisk, Google Labs tarafından geliştirilen bir görsel oluşturma platformu olarak öne çıkıyor. Kullanıcılar, bir görseli başlangıç noktası olarak kullanarak yeni görseller oluşturabiliyor. Ancak, Whisk’in oluşturduğu sonuçlar, yüklenen görselin tam bir kopyasını üretmek yerine “özünü” yansıtmayı amaçlıyor. Bu nedenle Whisk, özellikle beyin fırtınası ve hızlı görsel konsept üretimi için ideal bir araç olarak tanımlanıyor.
Google, Whisk’i “yeni bir tür yaratıcı araç” olarak nitelendiriyor. Aracın giriş ekranı oldukça basit bir arayüze sahip; kullanıcılar burada stil ve konu gibi temel girdileri seçebiliyor. Şu an için Whisk, yalnızca çıkartma, mine pin ve peluş oyuncak olmak üzere üç ön tanımlı stil seçeneği sunuyor. Bu sınırlı stil seçeneklerinin, aracın deneysel yapısıyla uyumlu olarak hızlı ve kaba hatlı görsel çıktılar üretmek için seçilmiş olması muhtemel.
Google’ın örnek olarak gösterdiği görselde, Whisk bir Wilford Brimley peluş oyuncak oluşturmayı başarmış. Her ne kadar Google’ın kullanım koşulları ünlülerin görsellerinin oluşturulmasını yasaklasa da, bu örnekte bir istisna oluşmuş gibi görünüyor.
Whisk, basit giriş ekranının yanı sıra daha fazla esneklik sunan gelişmiş bir düzenleme moduna da sahip. Ana ekrandan “Sıfırdan Başla” seçeneğiyle erişilebilen bu modda, kullanıcılar hem metin girişleri hem de kaynak görselleri kullanarak görseller oluşturabiliyor. Gelişmiş modda, görsel girdiler konu, sahne ve stil olarak kategorize ediliyor. Ayrıca ek metin detayları eklemek için ayrı bir giriş çubuğu da bulunuyor. Ancak mevcut durumda, bu gelişmiş kontrol seçenekleri istenilen düzeyde detaylı sonuçlar üretmekten uzak görünüyor.
Örneğin, Whisk, yüklenen kaynak görseldeki belirli özellikleri doğru şekilde yansıtmayan çıktılar oluşturabiliyor. Bu durum, Google’ın aracı “hızlı görsel keşif” amacıyla kullanmayı önermesinin nedenini de açıklıyor. Şirket, Whisk’in yalnızca kaynak görselin “birkaç temel özelliğinden” yararlandığını belirtiyor. Bu bağlamda, yüklenen görselin boyu, kilosu, saç modeli veya ten rengi gibi unsurlarının farklılık gösterebileceği konusunda kullanıcıları uyarıyor.
Google, Whisk’in çalışma prensibini detaylandırırken, aracın Gemini dil modeli ve Imagen 3 görsel oluşturucu altyapısını kullandığını ifade ediyor. Whisk, önce kaynak görseli detaylı bir şekilde tanımlamak için Gemini dil modelinden yararlanıyor ve ardından bu açıklamayı Imagen 3’e aktarıyor. Sonuç olarak, elde edilen görsel, doğrudan kaynak görsel üzerinden değil, Gemini’nin görsel hakkındaki yorumlamasına dayanarak oluşturuluyor.
Google Whisk şimdilik sadece ABD’de erişime açık
Google’ın deneysel aracı Whisk, şu an için yalnızca ABD’de erişime açık durumda. Kullanıcılar, aracı Google Labs platformu üzerinden test edebiliyor. Whisk’in gelecekte daha fazla ülkeye sunulup sunulmayacağı veya ek özelliklerle geliştirilip geliştirilmeyeceği ise henüz bilinmiyor.