Teknoloji

OpenAI, ChatGPT’nin kapsamını sesli iletişim ve görsel arama ile genişletiyor

chatgpt

OpenAI’ın ChatGPT’de yaptığı çoğu değişiklik, yapay zekâ (AI) destekli botun yeteneklerini arttırmaya yönelikti. Bunlar, yanıtlayabileceği sorular, erişebileceği bilgi ve geliştirilmiş alt modellerle ilgiliydi. Ancak şimdi, OpenAI işleri biraz değiştiriyor ve ChatGPT’nin kullanım şeklini yeniden düzenliyor. Şirket, kullanıcıların yazı yazmanın ötesinde sesli komutlarıyla veya sadece bir fotoğraf yükleyerek AI botunu çalıştırabilecekleri bir servis versiyonunu yayınlamaya hazırlanıyor.

ChatGPT’ye sesli sohbet ve görsel arama yenilikleri

Sesli sohbet özelliği oldukça sade görünüyor. Bir düğmeye basarak sorunuzu dillendirin, ChatGPT bunu bir metne çevirir ve büyük dil modeline sokar, bir yanıt alır, bunu tekrar bir konuşmaya çevirir ve yanıtı seslendirir.

Ses ve metin işleme konusunda OpenAI’nin Whisper modeli önemli bir rol oynuyor. Aytıca şirket, “sadece metin ve birkaç saniyelik örnek konuşmadan insan gibi ses üretebilen” yeni bir metinden konuşmaya modelini devreye alıyor. OpenAI bu çalışmanın potansiyel kullanım alanları arasında, podcast yapımcılarının sesini koruyarak podcast’leri diğer dillere çevirmenin de bulunduğunu dile getiriyor.

ChatGPT’nin görsel arama özelliği ise biraz Google Lens’i andırıyor. İlginizi çeken bir şeyin fotoğrafını çekersiniz ve ChatGPT sizin ne hakkında bilgi almak istediğinizi tahmin etmeye çalışır.

Şüphesiz, görsel aramanın kendine has muhtemel sorunları vardır. Örneğin, bir sohbet botunu bir kişi üzerine sorguladığınızda ne olabileceği merak konusu. OpenAI, ChatGPT’nin “insanlar hakkında analiz yapma ve doğrudan ifadelerde bulunma yeteneğini” hem doğruluk hem de gizlilik nedenleriyle bilinçli olarak sınırladığını ifade ettiğini söylüyor. Bu durum, AI’ın en bilim kurgusal vizyonlarından birinin, yani birine bakıp “Bu kim?” diye sormanın şimdilik gerçekleşmeyeceği anlamına geliyor. Bunun iyi bir şey olduğunu söyleyebiliriz.

OpenAI, ChatGPT’nin yeni modelinin yeteneklerini sınırlayarak riskleri dengelemeye çalışıyor. Ancak bu, ses kontrolünün ve görsel aramanın popülerleşmesi ve ChatGPT’nin gerçekten çok modlu, kullanışlı bir sanal asistan haline gelmesine yaklaştıkça, her geçen gün daha zor bir hale geliyor.

ChatGPT’nin lansmanından neredeyse bir yıl sonra, OpenAI hâlâ sohbet botuna daha fazla özellik ve yetenek katarken yeni sorun ve dezavantajlar yaratmamanın en iyi yolunu bulmaya çalışıyor. Bu çıkışlarla birlikte, şirket yeni modellerinin yapabileceği şeyi bilinçli olarak sınırlayarak bu dengeyi sağlamaya çalıştı. Ancak bu yaklaşım sonsuza kadar işe yaramayacaktır.

ChatGPT’nin, çok modlu ve kullanışlı bir sanal asistan haline gelmesi ve daha fazla insanın ses kontrolü ve görsel aramayı kullanmaya başlamasıyla birlikte, bu koruma önlemlerini sürdürmek giderek daha zor hale gelecektir. Artan kullanım ve etkinliğin beraberinde getirdiği güvenlik ve gizlilik endişelerine rağmen, OpenAI’ın çözümünün yeni yeteneklerin dikkatli ve etik bir şekilde kullanılmasını sağlamak olduğu görülüyor.

Sadece birkaç saniye ses alabilecek ve onunla insan gibi konuşabilecek bir sentetik ses oluşturabilme olasılığının, halk figürlerinin taklit edilmesi veya dolandırıcılık yapılması gibi riskler içerdiği aşikardır. OpenAI bu nedenle modelin geniş kullanımına izin vermiyor. Bunun yerine, model hedeflenmiş kullanımlar ve ortaklıklar için kontrollü ve sınırlı tutulacak.

Alexa veya Google Asistan’ı anımsatan sesli sohbet özelliği eşliğinde, görsel arama yeteneği de OpenAI’nın ChatGPT uygulamasına eklenecek. Bu durum, mevcut AI teknolojilerinin ötesine geçen ve belki de en çok bilim kurgu filmlerinde gördüğümüz üst düzey yetenekli bir asistanı hayal etmemizi sağlar. Ancak, bu vizyonun gerçekleşmesinin hâlâ biraz zaman alacağını ve çözülmesi gereken bir dizi zorluğun olduğunu belirtmek önemlidir.

Sonuç olarak, OpenAI’ın ChatGPT’nin yeteneklerini genişletme çabaları, AI teknolojisinin sorunlarına ve potansiyeline dair geniş bir tartışmayı gündeme getiriyor. Bu çalışma, AI teknolojisinin kullanıcıların hayatlarını nasıl değiştirebileceğini ve toplumun bu yeni teknolojiye nasıl uyum sağlayacağını gösteren heyecan verici bir örnek. Yine de, bu teknolojiye dair yeni sorunları ve endişeleri de göz ardı etmemek gereklidir.