OpenAI o3 Benchmark Şeffaflık Tartışması Gündemde

Nisan 19, 2025 OpenAI

OpenAI o3 benchmark şeffaflık tartışması, son günlerde yapay zeka sektörünün dikkat odağı oldu. OpenAI, Aralık’taki tanıtımında o3 modelinin FrontierMath benchmark’ında %25’in üzerinde skor elde ettiğini öne sürmüştü. Ancak, bağımsız Epoch AI laboratuvarının yeni testlerinde kamuya açık sürümün sadece %10 başarı sağladığı ortaya çıktı.

OpenAI o3 benchmark şeffaflık tartışması nasıl başladı?

OpenAI’nin baş araştırmacısı Mark Chen, Aralık’ta yapılan canlı yayında ‘o3 şu ana kadar sunulan tüm modellerden açık ara önde’ diyerek, agresif test ortamında %25’i geçen skor elde ettiklerini ilan etmişti. Fakat bu skorun, daha fazla hesaplama kaynağı (test-time compute) ile, piyasaya çıkarılan o3 modelinden farklı bir konfigürasyonla elde edildiği anlaşıldı.

Epoch AI, yayınlanan o3’te %10 civarı başarıya ulaştı.
Kamuya sunulan model, ‘gerçek dünya kullanımına’ optimize edildiği için laboratuvar ortamındaki gibi yüksek sonuç vermiyor.

[GÖRSEL: Farklı laboratuvarlarda AI modeli benchmark testini analiz eden veri bilimciler]

OpenAI o3 benchmark şeffaflık tartışmasında neler gündeme geldi?

Bu durum, AI şirketlerinden gelen benchmark skorlarının yüzeydeki iddialar kadar güvenilir olup olmadığı sorusunu tekrar öne çıkardı. OpenAI çalışanı Wenda Zhou, canlı yayında, ticari sürümün pratik hız ve kullanım için daha optimize olduğunu, bu nedenle bazı puanların değiştiğini doğruladı.

‘AI sektöründe benchmark uyumsuzlukları yeni bir norm halini aldı. Ticarileşen her yeni modelle birlikte şeffaf test ihtiyacı artıyor.’

Aslında o3 baz modelinin yeni sürümleri — o3-mini-high ve o4-mini — FrontierMath’ta daha iyi sonuçlar veriyor. Ancak yine de, kullanıcıların ve iş ortaklarının tek bir benchmark sonucunu mutlak doğruluk olarak almaması gerektiği, bağımsız testlerle birlikte bütüncül bir değerlendirme yapması gerektiği bir kez daha anlaşılmış oldu.