Açık Kaynak TTS Modeli Kullanarak Yüksek Kaliteli Ses Üretme Rehberi

Nisan 12, 2025 Hugging Face

Bu eğitimde, Hugging Face’te mevcut olan açık kaynaklı TTS (Metinden Sese) modeli kullanılarak metnin nasıl ses dosyasına dönüştürüleceğini göstereceğiz. Coqui TTS kütüphanesinin yeteneklerinden yararlanarak \”tts_models/en/ljspeech/tacotron2-DDC\” modelini başlatacağız, girdi metninizi işleyeceğiz ve sonuç üretilen sesi yüksek kaliteli bir WAV ses dosyası olarak kaydedeceğiz.

Ortamın Kurulması

Önce Coqui TTS kütüphanesini yükleyerek başlayacağız ki bu, gerekli tüm bağımlılıkların Python ortamınızda bulunduğundan emin olmanızı sağlar:

!pip install TTS

Daha sonra gerekli modülleri içe aktarıp, WAV ses dosyalarını açmak ve analiz etmek için gerekli olan \”wave\” modülünü kullanacağız. İşlem şu şekilde ilerleyecek:

from TTS.api import TTS
import contextlib
import wave

text_to_speech fonksiyonu, bir metin dizisi, opsiyonel çıktı dosya yolu ve GPU kullanım bayrağı alır ve belirtilen Coqui TTS modeli kullanılarak girilen metni bir WAV ses dosyasına dönüştürür.

Ses Analizinin Yapılması

analyze_audio fonksiyonu, belirtilen WAV dosyasını açar ve Python’un \”wave\” modülü aracılığıyla ses özelliklerini çıkarır. Bu bilgiler, sentezlenen ses çıktısının teknik özelliklerini doğrulamanıza yardımcı olur:

def analyze_audio(wav_file_path):
    with contextlib.closing(wave.open(wav_file_path, 'r')) as f:
        frames = f.getnframes()
        rate = f.getframerate()
        duration = frames / float(rate)
        print(f\"Duration: {duration}s\")

Bu adımları takip ederek, metinden etkili bir şekilde ses oluşturabilir ve sonucunda elde edilen ses dosyasını analiz edebiliriz.

Bu rehber, açık kaynak TTS araç ve kütüphaneleri kullanarak metni sese nasıl dönüştüreceğinizi ve sonunda bu ses dosyasını nasıl analiz edeceğinizi gösterir. Hugging Face modellerini Coqui TTS kütüphanesi ve Python’un sağlam ses işleme yetenekleriyle birleştirerek, konuşma sentezi ve doğrulamayı verimli bir şekilde yapabilirsiniz.