AI Benchmark Sonuçlarında Güven Krizi!

Bir yapay zeka modelinin en güvenilir şekilde test edildiği ortamlar olan AI Benchmark ları bizim de yakından takip ettiğimiz ve sonuçlarına önem verdiğimiz yerlerdir.

Epoch AI, yapay zekanın matematiksel yeteneklerini ölçmek için kullanılan FrontierMath benchmark testini geliştirdiğini duyurduğunda, birçok kişi testin tarafsız olduğunu varsaymıştı. Ancak, Epoch AI’nin OpenAI’den finansal destek aldığı gerçeğini uzun süre açıklamaması, AI topluluğunda etik tartışmaları başlattı.

20 Aralık 2024’te, Epoch AI, FrontierMath’in geliştirilmesinde OpenAI’nin finansal katkıda bulunduğunu kabul etti. Bu, OpenAI’nin yeni amiral gemisi AI modeli o3’ü tanıtmak için kullandığı benchmarklardan biri idi.

Epoch AI için çalışan bazı yükleniciler, OpenAI’nin katkısı hakkında bilgilendirilmediklerini ve eğer bu durumu önceden bilselerdi projeye katılmayabileceklerini belirtti.

AI Benchmarklarının Tarafsızlığı Tehlikede mi?

Bazı AI araştırmacıları ve matematikçiler, OpenAI’nin FrontierMath’e özel erişim sağlayarak avantaj elde etmiş olabileceğini öne sürüyor.

Stanford doktora öğrencisi Carina Hong, en az altı matematikçinin OpenAI’nin bu özel erişime sahip olduğundan habersiz olduğunu belirtti.
Eğer OpenAI, FrontierMath testlerini önceden görüp modelini ona göre eğittiyse, test sonuçlarının tarafsızlığı tehlikeye girebilir.
Epoch AI yöneticileri, OpenAI’nin benchmark verilerini eğitim için kullanmayacağına dair “sözlü bir anlaşmaları” olduğunu iddia ediyor.

Ancak, Epoch AI’nin lider matematikçilerinden Elliot Glazer, OpenAI’nin sonuçlarını bağımsız olarak doğrulama şanslarının henüz olmadığını açıkladı.

Epoch AI Şeffaflık Eksikliğini Kabul Etti

Epoch AI’nin kurucu ortaklarından Tamay Beşiroglu, OpenAI ile olan anlaşmalarında şeffaflık konusunda hata yaptıklarını kabul etti.

“Matematikçilerimizin, çalışmalarına kimin erişebileceğini bilme hakkı vardı.”
“OpenAI ile yaptığımız anlaşmalar nedeniyle hemen açıklama yapamadık, ama daha iyi müzakere etmeliydik.”

Epoch AI, OpenAI’nin FrontierMath verilerini model eğitimi için kullanmayacağına dair sözlü bir taahhüt verdiğini ve bağımsız doğrulama için ayrı bir “holdout” veri setine sahip olduklarını söylüyor.

Şimdi Biz Kime Güveneceğiz ?

Bu olay, AI benchmarklarının güvenilirliğini ve bağımsızlığını sağlamanın ne kadar zor olduğunu bir kez daha gösterdi.

❌ Eğer OpenAI gerçekten FrontierMath’ten faydalandıysa, sonuçlar adil olmayabilir.
❌ Benchmarklar için dış finansman almak, çıkar çatışmalarına yol açabilir.
✅ Epoch AI, süreci daha şeffaf yönetmesi gerektiğini kabul etti.

AI topluluğu için etik ve güvenilirlik büyük önem taşıyor. OpenAI gibi büyük şirketlerin benchmarkları finanse ederken tarafsızlık ilkesine uymaları gerektiği konusunda daha fazla baskı olabilir.