Gerçek Zamanlı Konuşan LLM ile LLaMA-Omni2 Dönemi

Mayıs 7, 2025 Meta

Gerçek zamanlı konuşan lllm arayışında en yeni adım, Çin Bilimler Akademisi Bilgi Teknolojileri Enstitüsü’nün geliştirdiği LLaMA-Omni2 ailesidir. LLaMA-Omni2, gerçek zamanlı ses algılayabilen ve yanıtlayabilen, ölçeklenebilir modüler bir konuşma dil modeli olarak Hugging Face platformunda yayınlandı. Bu teknolojiyle, konuşma algısı ve sentezi ile dil anlama entegrasyonu tek bir çatı altında birleştirildi.

Gerçek zamanlı konuşan llm ile hangi yenilikler sağlanıyor

LLaMA-Omni2, 0.5 milyardan 14 milyara kadar parametreye sahip farklı model boyutlarında sunuluyor. Temel yapı taşlarında Whisper-large-v3 konuşma kodlayıcı, konuşma adaptasyon katmanı, Qwen2.5-Instruct serisi bir dil modeli ve otomatik konuşma sentezleyici TTS (Text-to-Speech) dikkat çekiyor.

LLaMA-Omni2’nin mimarisi; giriş sesini akustik temsillere dönüştüren konuşma kodlayıcı, bu çıktıyı dil modelinin anlayabileceği forma getiren adaptasyon katmanı ve akabinde anlam çıkarımı yapan LLM’den oluşuyor. Yanıtlarda ise özel bir akış eşleme tabanlı TTS çözümüyle sesli çıkış elde ediliyor. Bu yapı, modüler yorumlanabilirliği ve düşük eğitim maliyetini koruyarak uçtan uca entegre çalışıyor.

Sistem, eşzamanlı akış için okuma-yazma (read-write) taktiği uyguluyor. LLM her R adet token ürettiğinde W adet konuşma tokeni oluşturuluyor. Örneğin R=3 ve W=10 ayarında; ortalama 583 ms gecikme, %3,26 ASR-WER ve 4,19 UTMOS ile yüksek algılama ve kalite sunuluyor. Böylelikle kullanıcı ve model arasındaki sesli etkileşim akıcı ve hızlı oluyor.

Gerçek zamanlı konuşan llm eğitimi nasıl gerçekleşti

LLaMA-Omni2, yalnızca 200.000 çok-akışlı (multi-turn) konuşma verisiyle eğitildi. Bu örnekler, metin tabanlı veri kümelerinden oluşturularak sesli diyaloğa dönüştürüldü. Eğitim iki aşamada yürütüldü: ilk etapta konuşma ve metin modülleri ayrı optimize edildi; ardından konuşmadan konuşmaya üretim süreci ince ayarlandı.

Benchmark testlerinde, LLaMA-Omni2-14B, rakip tüm modellerin üstünde sonuçlar elde etti. Daha az eğitim verisiyle dahi güçlü konuşmalı etkileşim ve düşük gecikme sunuyor. Özellikle modüler kapı füzyon mekanizması, metinsel ve bağlamsal sinyallerin uyumunu artırıyor.

Model	ASR-WER	Latency (ms)	GPT-4o Score
LLaMA-Omni2-7B	3,26	582,9	4,15
LLaMA-Omni (8B)	3,67	346,7	3,52
GLM-4-Voice (9B)	3,48	1562,8	4,09

LLaMA-Omni2, büyük konuşma veri kümelerine ihtiyaç duymadan yüksek kaliteli konuşan LLM’ler elde edilebileceğini kanıtladı.

Bu teknolojiyle sesli asistanlar, çağrı merkezi botları ve çok daha fazlasında; düşük gecikmeli, bağlama duyarlı ve modüler yapıda konuşan yapay zeka sistemleri geliştirilebilecek. Gerçek zamanlı konuşan lllm çağı, sesli dijital deneyimlerde yeni bir standart oluşturuyor.