Meta’nın yeni amiral gemisi AI modeli Maverick, performans sıralamalarında ikinci sırada yer almasına rağmen, geliştiricilere sunulan versiyonu ile testlerde kullanılan versiyon arasında belirgin farklılıklar bulunmaktadır.
Meta, Maverick modelini LM Arena’da test ederken, ‘deneysel sohbet versiyonu’ ile farklı bir performans sergiledi. Ancak, geliştiricilere sunulan klasik versiyon farklı davranışlar göstermekte.
Özelleştirme ve Yanıltıcılık
Bazı araştırmacılar, modelleri özellikle bir ölçüte göre optimize etmenin yanıltıcı sonuçlar doğurabileceğini belirtiyor. Bu durum, modelin gerçek performansını değerlendirmeyi zorlaştırıyor ve geliştiricilerin doğru beklentiler oluşturmasını engelliyor.
Meta ve LM Arena’nın geliştiricileri ile iletişime geçen uzmanlar konuyu araştırmaya devam ediyor. Meta’nın yine algı ile bir Deepseek etkisi yaratma peşinde olduğu benchmarkları kendi lehine kullanıldığı düşünülüyor…
Şaşırdık mı? Hayır…



Comments are closed