ElevenLabs, İlk Bağımsız Speech-to-Text Modeli “Scribe”ı Duyurdu
Ses üretimi teknolojileriyle tanınan AI girişimi ElevenLabs, bu kez ters yönde ilerleyerek konuşmadan metne (speech-to-text) çeviri alanına adım attı. Yeni ürünü Scribe, şirketin ilk bağımsız ses tanıma modeli oldu.
Peki Scribe Neler Sunuyor?
99’dan fazla dili destekliyor, 25+ dilde %95’in üzerinde doğruluk oranı (Word Error Rate < %5) var ve öne çıkan dilleri, İngilizce (%97), Fransızca, Almanca, Hintçe, Japonca, Portekizce, İspanyolca, Vietnamca, Malayca, Kannada, Malayalam, Lehçe ile Otomatik etiketleme (örneğin: seyirci gülmesi gibi ses olayları), Kelime düzeyinde zaman damgası (timestamp), Konuşmacı ayrımı (diarization), Video içeriği için doğrudan altyazı oluşturma aracı olarak kullanılabiliyor…
Benchmark Testlerinde Rakiplerini Geçti
FLEURS ve Common Voice benchmark testlerine göre, Google Gemini 2.0 Flash ve OpenAI Whisper Large V3 modellerinden daha iyi performans gösterdi.
Scribe, daha önce ElevenLabs’ın AI konuşma ajanı platformu için geliştirilen ses tanıma bileşenlerinin bir uzantısı olarak üretildi. Ancak bu, ilk kez bağımsız bir ürün olarak piyasaya sunuluyor.
Ancak, Gerçek zamanlı (real-time) destek yok, Sadece önceden kaydedilmiş ses dosyalarıyla çalışıyor, Toplantı transkripsiyonu ya da canlı not alma için henüz uygun değil… Fakat düşük gecikmeli versiyonun yakında yayınlanacağı duyuruldu
Saatlik transkripsiyon ücreti $0.40… Rakiplere kıyasla rekabetçi bir fiyat, ancak bazı alternatifler şu anda daha ucuz ve farklı özellikler sunuyor…
Testlerinizi bekliyoruz…
Anahtar Kelimeler:
ElevenLabs Scribe, speech-to-text, AI konuşma tanıma, transkripsiyon, kelime zaman damgası, Whisper alternatifi, video altyazı aracı, AI ses teknolojisi



Comments are closed