ManşetlerTeknoloji

Görsel üretim artık doğrudan ChatGPT içinde mümkün

openai görsel üretme

OpenAI, görsel üretim yeteneklerini doğrudan ChatGPT platformuna entegre ederek kullanıcı deneyiminde önemli bir dönüşüme imza attı. Daha önce yalnızca Sora platformu üzerinden erişilebilen bu özellik, artık ChatGPT’nin Plus, Pro, Team ve Free abonelik katmanlarında kullanılabiliyor. Böylece kullanıcılar, ek bir uygulamaya veya siteye ihtiyaç duymadan doğrudan sohbet ekranı üzerinden görsel oluşturabiliyorlar. Bu entegrasyon, ChatGPT’nin çok modlu yapay zeka yaklaşımının bir uzantısı olarak dikkat çekiyor.

Yeni özellik “Images in ChatGPT” ismiyle anılıyor ve temelinde OpenAI’nin geliştirdiği GPT-4o modeli bulunuyor. Söz konusu modelin “omnimodal” olarak tanımlanması, yalnızca metin değil; görüntü, ses ve video gibi farklı veri türlerini de işleyebilme kabiliyeti taşıdığına işaret ediyor. Bu bağlamda, yalnızca bir metin komutuyla anlamlı, tutarlı ve estetik açıdan güçlü görseller oluşturulabiliyor. Modelin temel dayanağı ise, önceki nesil modellerde karşılaşılan sınırlamaların aşılması hedefiyle kurgulanmış.

Modelin görsel üretim sürecini sıralı biçimde gerçekleştirmesi kaliteyi artırıyor

Sistemin teknik olarak en dikkat çekici yönlerinden biri, “autoregressive” olarak adlandırılan sıralı üretim yöntemiyle çalışması. Bu yöntem, görselleri soldan sağa ve yukarıdan aşağıya doğru, tıpkı bir metin oluşturur gibi adım adım üretmeye olanak sağlıyor. Diffüzyon tabanlı yaklaşımlarda görsel tek seferde oluşturulurken, bu yeni yöntem sayesinde metinler daha okunabilir, nesnelerse daha tutarlı hale geliyor. Böylelikle görsel içinde yer alan metin ve şekiller arasındaki bağların karışmaması sağlanıyor.

Bu bağlamda özellikle “binding” olarak adlandırılan ve görseldeki nesnelerin niteliklerinin doğru eşleştirilmesini ifade eden özellikte belirgin iyileştirmeler söz konusu. Eski sistemlerde renk ve şekil eşleştirmeleri sıkça hatalı sonuçlar doğururken, bu yeni yapay zeka modeli aynı anda 15 ila 20 nesneyi doğru biçimde tanımlayabiliyor. Kullanıcılar mavi bir yıldız ve kırmızı bir üçgen istediğinde, sistem bu nesneleri karıştırmadan oluşturabiliyor. Bu da grafiksel doğruluğun artırılması açısından ciddi bir adım olarak değerlendiriliyor.

Bunun yanında, sistem metin içeriği olan görsellerin üretilmesinde de güçlü bir performans sergiliyor. Genellikle yapay zeka görsel oluşturucularında karşılaşılan yazım hataları, bu sistemde önemli ölçüde azaltılmış durumda. Özellikle başlıklar, etiketler ve bilgilendirici panolar gibi metin odaklı içeriklerde yazıların düzgün şekilde çıkması sağlanıyor. Çok küçük yazılarda zaman zaman bozulmalar görülse de genel anlamda metin kalitesi tutarlı bir seviyeye ulaşmış durumda.

Her şeye rağmen bu yeni modelin görsel üretim süreci, önceki sistemlere kıyasla biraz daha uzun sürüyor. OpenAI mühendisleri, bu süre farkının kalite artışı karşılığında makul olduğunu ifade ediyor. Kullanıcıların birkaç saniye daha fazla bekleyerek çok daha kaliteli görsellere ulaşabilmesi, kullanım açısından kayda değer bir gelişme olarak değerlendiriliyor. Sistem, görsel üretim süresini optimize etmeye yönelik geliştirmeleri ise sürdürüyor.

Tüm bunların yanında, OpenAI sistemin kötüye kullanımını önlemek amacıyla kapsamlı güvenlik önlemleri almış durumda. Sistem; cinsel içerikli deepfake’leri, çocuk istismarı temalı görselleri ve filigran kaldırma işlemlerini doğrudan engelliyor. Ek olarak tüm oluşturulan görsellerde, görüntünün OpenAI tarafından üretildiğini gösteren C2PA meta verileri yer alıyor. Böylelikle sistemin şeffaflığı korunurken, içeriklerin kaynağı da gerektiğinde izlenebilir hale getiriliyor.

Buna rağmen oluşturulan görsellerin üzerinde herhangi bir görsel filigran bulunmuyor. Bunun yerine sistem düzeyinde izlenebilirlik sağlayan yapılar devreye giriyor. Bu durum, görsellerin dijital ortamda özgürce kullanılmasını sağlarken, aynı zamanda kötü niyetli kullanımları denetlemek adına da gerekli kontrol mekanizmalarını içeriyor. Kullanıcıların oluşturduğu içeriklerin mülkiyeti ise yine kullanıcılara ait kalıyor.

Öte yandan bu yeni özellik yalnızca deneysel veya sanatsal içerikler üretmekle sınırlı değil. Bilimsel diyagramlar, eğitim materyalleri, bilgi panoları ve ticari sunumlara yönelik grafikler de üretilebiliyor. Örnek olarak Newton’un prizma deneyini doğru etiketlenmiş şekilde görselleştirmek, artık yalnızca bir metin komutuyla mümkün hale geliyor. Bu da sistemin dünya bilgisine dayalı üretim kapasitesinin geldiği noktayı gösteriyor.

Sonuç olarak, ChatGPT’ye entegre edilen bu yeni görsel üretim yeteneği, yapay zeka tabanlı içerik üretiminde dikkate değer bir ilerlemeye işaret ediyor. Kullanıcıların hem metin hem de görsel taleplerini tek bir platformda karşılayabilmesi, içerik üretim süreçlerinde bütüncül bir deneyim sağlıyor. Sora’dan taşınarak ChatGPT’nin merkezine yerleştirilen bu özellik, gelecekte çok modlu yapay zeka kullanımının sıradan bir uygulama haline gelebileceğine dair güçlü bir sinyal veriyor. Görsel üretimin sadece birkaç kelimeyle yapılabildiği bu yeni dönemde, içerik üretimi hiç olmadığı kadar erişilebilir hale gelmiş durumda.