RLVR ile matematiksel akıl yürütme nasıl gelişiyor

Haziran 1, 2025 Alibaba

RLVR ile matematiksel akıl yürütme son yılların dikkat çeken yapay zeka yeniliklerinden biri olarak öne çıkıyor. Özellikle doğal dil işleme (NLP) alanında, insan geribildirimi ile pekiştirmeli öğrenme (RLHF) üzerine kurulan teknikler, modellerin optimizasyonunda yeni bir seviyeye ulaştı. RLVR (doğrulanabilir ödüllü pekiştirmeli öğrenme), insan etkileşimine gerek olmadan, doğruluğu otomatik olarak tespit edilebilen sinyalleri kullanarak modelin yeteneklerini artırma potansiyeli taşıyor.

RLVR ile matematiksel akıl yürütme neden önemli

Matematiksel problem çözümü ve akıl yürütme görevlerinde, doğru cevapların hepsinin etiketlenmesi ciddi bir zaman ve emek gerektirir. RLVR ile matematiksel akıl yürütme yöntemleri ise, otomatik olarak oluşturulan sinyallerle binlerce görevi verimli şekilde denetlemeden eğitme imkanı sunuyor. En temel avantajı, modelin minimum veya hatalı geribildirimle dahi iyi sonuç verebilmesi olarak öne çıkıyor. Böylece büyük veri setlerinde insan kaynağına ihtiyaç olmadan genel akıl yürütme becerileri geliştirilebiliyor.

RLVR ile matematiksel akıl yürütme modellerinde farklı ödül sinyalleri nasıl etkili oluyor

Güncel araştırmalar, farklı ödül sinyali tiplerinin Qwen2.5-Math gibi modellere etkisini kapsamlı biçimde inceledi. İnsan onaylı doğru cevap (ground-truth), çoğunluk oyu, biçim-düzgünlüğü, rastgele sinyaller ve hatta yanlış etiketli cevaplar gibi birçok ödül çeşidi denendi.

Qwen2.5-Math-7B‘de insan onaylı ödüller +28.8% performans artışı sağlarken, yanlış cevaba dayalı ödüller bile +24.6% artış getirdi.
Rastgele ödüllendirme ile +21.4% gibi iddialı bir kazanım, biçim ödülleri (cevabın kutulu formatta olması gibi) ile ise +16.4% yükseliş sağlandı.
Çoğunluk oyu ile +26.5%, kod-akıl yürütme içeren cevaplarda ise doğruluk %64’e yükseldi (öncesinde %29 civarında seyrediyordu).

RLVR ile matematiksel akıl yürütme ve model-özgüllüğü nedir

Çarpıcı şekilde, bu spurious (yanıltıcı/yanlış) ödül avantajları yalnızca Qwen ailesinde ortaya çıktı. Llama3 ve OLMo2 gibi farklı model ailelerinde benzer denemelerde performans sabit kaldı ya da düştü. Llama3.1-8B, yanlış ödülle %8.5’e varan oranda geriye gitti. Bu durum, RLVR ile matematiksel akıl yürütme süreçlerinde model mimarisinin temel belirleyici olduğunu gösteriyor.

RLVR ile matematiksel akıl yürütme, RLVR, Qwen2.5-Math, spurious sinyaller, ödül sinyali, insan geribildirimli öğrenme, yanlış yanıt ile model eğitimi

RLVR ile matematiksel akıl yürütmede kod temelli akıl yürütmenin rolü nedir

Qwen modellerinde RLVR eğitimiyle beraber, yanıtların büyük kısmı kod-mantığında (özellikle Python biçiminde) organize edilmeye başlandı. Eğitim boyunca bu davranış %67’den %90’ın üstüne tırmandı. Kod mantığıyla yazılan cevaplarda başarının belirgin şekilde arttığı görülüyor. Bunu aşağıdaki tablo özetliyor:

Deney	Doğruluk	Kodla Akıl Yürütme Oranı
Başlangıç	%29	%66.7
Spurious ödüllerle	%64	90%+

RLVR ile matematiksel akıl yürütme yalnızca veri etiketinin doğruluğuna değil, modelin önceden kazandığı potansiyel yapılandırmaların eğitime hızlıca taşınmasına dayanıyor.

RLVR ile matematiksel akıl yürütme neden tüm modellere genellenemez

Çalışmada, RLVR ile matematiksel akıl yürütme sürecinde Qwen modellerinin spurious sinyallere duyarlılığı ön plana çıktı. Ancak Llama3 ve OLMo2 benzeri modellerde başlanılan accuracy oranları neredeyse hiç yükselmedi veya azaldı. Kısacası, RLVR başarıları Qwen modellerine özel bir fenomendir ve genelleştirilemez.

RLVR ile matematiksel akıl yürütme alanında öne çıkan sonuçlar neler

Qwen2.5-Math ailesinde rastgele ve yanlış etiketli ödüller dahi ciddi gelişmeler sağladı
Kod temelli akıl yürütme yükseldiğinde doğruluk iki katına çıktı
Llama3 ve OLMo2’de spurious ödüller zararlı veya nötr kaldı
Sonuçlar sadece Qwen modelleriyle sınırlı tutulmamalı