OpenAI o3 modeli beklenen başarıyı veremedi

OpenAI tarafından geliştirilen o3 yapay zekâ modeli, aralık ayında büyük beklentilerle tanıtılmıştı. Tanıtım sırasında, modelin özellikle FrontierMath adlı zorlu matematik testlerinde çarpıcı bir başarı gösterdiği öne sürülmüştü. Bu verilere göre, o3 modeli testte yüzde 25’in üzerinde doğru yanıt vererek diğer tüm rakip modelleri geride bırakmış görünüyordu. Ancak kamuoyuyla paylaşılan bu skorlar, daha sonra yapılan bağımsız testlerle sorgulanır hale geldi.

FrontierMath veri setinin geliştiricisi konumundaki Epoch AI, kısa süre önce o3 modeli üzerinde kendi kıyaslamalarını yayınladı. Yapılan bağımsız ölçümlere göre o3 modelinin başarı oranı yalnızca yüzde 10 seviyelerinde kaldı. Bu sonuç, OpenAI’nin önceki açıklamalarıyla doğrudan çelişmese de beklentilerin oldukça altında bir tablo çizdi. Fakat asıl dikkat çeken nokta, kamuya sunulan o3 modelinin, testlerde kullanılan versiyondan teknik olarak farklı olması.

OpenAI farklı bir o3 sürümünü kullanıma sunmuş olabilir

Epoch AI, kendi test sürecinde OpenAI’nin kullandığı versiyondan farklı bir FrontierMath sürümünü esas aldığını belirtti. Buna göre, Epoch’un kıyaslamaları 290 matematik problemi içeren yeni bir sürümle yapılırken, OpenAI’nin verileri yalnızca 180 problem içeren önceki bir versiyona dayanıyordu. Bunun yanında, OpenAI’nin dahili testlerde çok daha güçlü işlem gücüyle desteklenmiş bir o3 sürümünü kullandığı tahmin ediliyor. Dolayısıyla test ortamlarının teknik özellikleri de sonuçlar üzerinde doğrudan etkili olabilir.

Tüm bunların yanında, ARC Prize Foundation tarafından yapılan açıklama da bu farkı doğrular nitelikte. Kuruluş, halka açık o3 modelinin aslında ürünleşmiş ve sohbet temelli kullanım için optimize edilmiş bir versiyon olduğunu ifade etti. Bu durum, kamuya sunulan o3 modelinin asıl test edilen versiyondan daha düşük kapasiteli olabileceğini gösteriyor. Nitekim, yüksek işlem gücüne sahip modellerin kıyaslamalarda daha yüksek skorlar elde etmesi zaten beklenen bir durum.

OpenAI ekibinden Wenda Zhou, geçtiğimiz günlerde katıldığı bir canlı yayında konuya açıklık getirmeye çalıştı. Zhou’nun açıklamasına göre, üretim aşamasındaki o3 modeli daha çok hız ve maliyet verimliliği gözetilerek optimize edilmiş durumda. Bu nedenle, kıyaslamalarda gösterilen yüksek skorların kamuya sunulan sürümde tekrarlanamaması olağan karşılanmalı. Yine de bu farkın, kamuoyunda kafa karışıklığına neden olduğu açık.

İşin dikkat çekici bir diğer yönü ise, OpenAI’nin o3 modelini tanıttığı dönemde bu farklılıkların açıkça belirtilmemiş olması. Tanıtım esnasında öne çıkan başarı oranı, sanki doğrudan piyasaya sürülecek modele aitmiş gibi lanse edilmişti. Bu durum, hem şeffaflık hem de kamuoyunu bilgilendirme açısından soru işaretleri doğurdu. Yapay zekâ alanında güvenilirliğin giderek daha kritik hale geldiği düşünüldüğünde, bu tür detayların net biçimde paylaşılması büyük önem taşıyor.

Her şeye rağmen, o3 modelinin kamuya açık sürümünün daha düşük skorlar elde etmesi OpenAI’nin genel başarısını gölgede bırakmıyor. Zira şirketin o3-mini-high ve o4-mini adını verdiği daha güncel modeller, FrontierMath testlerinde o3’e kıyasla daha yüksek başarı oranlarına ulaşmış durumda. Bununla birlikte, OpenAI’nin yakın zamanda daha güçlü bir sürüm olan o3-pro’yu da kullanıma sunması bekleniyor. Bu gelişmeler, o3 modelinin yalnızca geçici bir aşama olduğunu gösteriyor.

Yapay zekâ dünyasında benchmark testleri giderek daha fazla tartışma yaratmaya başladı. Çünkü kıyaslama sonuçlarının modelin gerçek dünya performansını ne ölçüde yansıttığı sıkça sorgulanıyor. Özellikle şirketlerin kendi ürünlerini değerlendirdiği testler, bağımsızlık ve tarafsızlık açısından ciddi soru işaretleri taşıyor. O3 örneği de bu tartışmayı yeniden gündeme taşımış oldu.

Geçmişte benzer durumlar başka şirketler için de yaşanmıştı. Örneğin; xAI, Grok 3 modeliyle ilgili yanıltıcı karşılaştırma tabloları yayınlamakla eleştirilmişti. Meta ise geliştiricilere sunduğu modelin benchmark testlerinde kullanılan versiyonla birebir örtüşmediğini kabul etmişti. Bu tür örnekler, kıyaslama sonuçlarının her zaman nihai kullanıcıya yansıyan kaliteyi temsil etmediğini açıkça gösteriyor.