xAI Grok-1.5V modeli, görüntü işleme yeteneği kazandı

Elon Musk tarafından kurulan ve OpenAI’a rakip olarak bilinen xAI, görsel bilgi işleyebilen ilk Grok modelini daha da ileri taşıyor. Yeni Grok-1.5V, sadece metinleri değil, aynı zamanda belgeleri, diyagramları, grafikleri, ekran görüntülerini ve fotoğrafları işleyebilen çok yönlü bir yapay zeka modeli olarak gelişmeyi sürdürüyor. Bu modelin çıkışı, şirketin daha önce kullanıma sunduğu ve kodlama ile matematikte daha yetkin olan Grok-1.5 modelinden sadece birkaç hafta sonra gerçekleşti.

Grok-1.5V’nin öne çıkan özellikleri

Grok-1.5V’nin tanıtımında, modelin gerçek dünyada nasıl kullanılabileceğine dair birkaç örnek verildi. Örneğin, bir akış şemasının fotoğrafını gösterip Grok’tan bunu Python koduna çevirmesini isteyebilir, bir çizimden hikaye yazmasını talep edebilir ya da anlamadığınız bir “meme”i, yani viral sosyal medya görselini açıklamasını sağlayabilirsiniz. İnternetin sürekli değişen içeriğiyle herkesin ayak uydurması zor olabilir. Grok, bu gibi durumlarda yardımcı olacaktır.

Grok-1.5V, xAI’nin erken test kullanıcıları ve mevcut kullanıcıları tarafından yakında deneyimlenebilecek. Ancak şirket, bu yeni modelin piyasaya sürülüş tarihi hakkında kesin bir zaman çizelgesi vermedi. Bu, Grok-1.5’in daha uzun bağlamları işleyebilme yeteneğiyle birleştiğinde, modelin belirli sorguları daha iyi anlaması için daha fazla kaynaktan veri kontrolü yapmasına olanak tanıyor.

Ayrıca xAI, RealWorldQA adını verdiği bir referans veri seti de yayınladı. Bu veri seti, yapay zeka modellerini değerlendirmek için kullanılabilecek 700 görsel içerir. Her bir öğe, kolayca doğrulanabilen ancak çok yönlü modelleri zorlayabilecek sorular ve cevaplar içerir. xAI, Grok’ı RealWorldQA ile OpenAI’nin GPT-4V ve Google’ın Gemini Pro 1.5 modelleri gibi rakiplerine karşı test ettiğinde teknolojisinin en yüksek puanı aldığını iddia etti.

Yeni Grok-1.5V, kullanıcıların yapay zeka teknolojisinden beklentilerini daha da artıracak gibi görünüyor. Bu model, yapay zekanın sadece metin tabanlı görevlerde değil, görsel-işitsel verileri anlamada da ne kadar ileri gidebileceğini gösteriyor. İlerleyen dönemlerde, bu tür çok yönlü yapay zeka modellerinin kullanım alanlarının genişlemesi bekleniyor.