ASTRO ile Llama 3 modelinin muhakeme gücü yalnızca ek mimari değişiklik olmadan, post-eğitim (post-training) süreçleri ile ciddi şekilde artırılabiliyor. Yapay zeka uygulamalarında model mimarisi değiştirilmeden akıl yürütme yeteneklerinin güçlendirilmesi, hem kullanımda hem de uyarlanabilirlikte büyük avantajlar sunuyor. Sara Global AI olarak, Meta AI ve Washington Üniversitesi araştırmacılarının geliştirdiği ASTRO (Autoregressive Search-Taught Reasoner) yaklaşımını inceliyoruz.
ASTRO ile Llama 3 modelinin muhakeme gücü nasıl artırılıyor
ASTRO, insan benzeri problem çözme ve sembolik arama algoritmalarından ilham alarak, modele bağlam-içi arama, öz-refleksiyon ve geri adım atma yetenekleri kazandırıyor. Bu sayede Llama 3, MATH 500, AMC 2023 ve AIME 2024 gibi matematiksel zorluklarda %16’dan %20’ye varan sıçrama gösteriyor. Örneğin, MATH 500 kümesinde oran %65,8’den %81,8’e, AMC 2023’te %37,5’ten %64,4’e ve AIME 2024’te %10’dan %30’a yükselmiş durumda.
ASTRO eğitimi hangi aşamalardan oluşuyor
ASTRO, sürecine Monte Carlo Tree Search (MCTS) ile başlar. Burada doğru ve yanlış tüm çözüm yolları araştırılır. Yenilikçi prosedür klonlama tekniğiyle bu arama ağaçları uzun düşünce zincirleri (chain-of-thought) halinde doğallaştırılıp modele aktarılır. Hem hatalar hem kurtarma denemeleriyle zenginleştirilen bu çıktılar, denetimli ince ayar (SFT) için temel veriyi oluşturur.
Sadece SFT ile ASTRO farkı nedir
ASTRO ile eğitilen Llama 3, sadece adım adım çözmekle kalmaz, gerekirse kendi adımlarını sorgular ve yeri geldiğinde başa döner. İçsel güveni azaldığında, örneğin ‘Denklemi kurduğumuz adıma geri dönelim’ şeklinde kendi çözümünü sorgulayabilir. SFT süreçlerinde, 36 binin üzerinde CoT çözümünden faydalanılarak rekabetçi sonuçlar elde edilir.
ASTRO ile SFT süreçlerinde, Llama 3 MATH 500’de %69,6, AMC 2023’te %51,9 ve AIME 2024’te %16,3 başarıya ulaşıyor. Bu oranlar, pek çok geleneksel yöntemi geride bırakıyor.
ASTRO-RL yaklaşımı neden fark yaratıyor
ASTRO’nun SFT ile başlatılan modeli, daha sonra takviye öğrenme (RL) ile güçlendirilir. Burada klasik ödül mekanizmasından farklı olarak, modelin doğru çıktılarına +1, yanlışkilerde -1 ödül verilir. Eğitim ilerledikçe, modelin düşünce zinciri derinleşir ve token uzunluğu yaklaşık 1.8K’dan 6K’ya çıkar.
ASTRO ile Llama 3 modelinin muhakeme gücü hangi seviyeye ulaşıyor
ASTRO-RL modeli sonunda, MATH 500’de %81,8, AMC 2023’te %64,4 ve AIME 2024’te %30 başarıya erişiyor. Bu sonuçlar, daha büyük modellerle kıyaslandığında dahi oldukça iddialı. Ayrıca, geri adım atma sıklığı ile doğruluk arasında yüksek bir korelasyon bulunmuş durumda (Pearson r > 0,8).
ASTRO’nun açıklanabilirliği ve pratik faydaları neler
ASTRO, sadece çözüm performansını artırmakla kalmaz, çıktılarını yönlendirilmiş grafik olarak görselleştirme imkanı da sunar. Her adım, ilişki ve düzeltme açıkça takip edilebilir. ASTRO ile Llama 3 modeli, yalnızca büyüklük veya uzun eğitimlerle değil; araştırmaya dayalı, insan benzeri şüphe ve öz-düzeltme davranışlarıyla gerçek bir zihin sıçraması gerçekleştiriyor.
| Benchmark | ASTRO-SFT | ASTRO-RL |
|---|---|---|
| MATH 500 | 69,6% | 81,8% |
| AMC 2023 | 51,9% | 64,4% |
| AIME 2024 | 16,3% | 30,0% |
ASTRO ile Llama 3 modelinin muhakeme gücü açıkça gösteriyor ki, büyük dil modelleri daha iyi düşünmeyi, mimarilerini büyütmeden, uygun eğitimle başarabiliyor. Sara Global AI olarak bu çığır açıcı framework’ü dikkatle izliyor ve uygulama fırsatlarını değerlendiriyoruz.



Comments are closed