Meta AI Perception Language Model açık kaynak VLM (Vision-Language Model) ile multimodal AI dünyasında şeffaflık ve yeniden üretilebilirlik yeni bir seviyeye çıkıyor. Kapalı veri setlerine ve model çıktısına bağımlılığı ortadan kaldıran PLM, hem görüntü hem video tabanlı görevlerde özgür ve detaylı bilimsel çalışma zemini sağlıyor.
Meta AI Perception Language Model açık kaynak VLM nedir?
PLM, LLaMA 3 dil modeliyle entegre çalışan ve bir Perception Encoder’a sahip vizyon-dil modellerinden oluşan açık, modüler bir çerçeve. Model, düşük çözünürlüklü sentetik verilerle başlayan eğitim sürecinde, daha sonra geniş insan etiketli veriyle ve yüksek çözünürlüklü örneklerle süpervize incelik turnuva uyguluyor. Tüm süreç tamamen açık kaynak kodlu ve şeffaf; sentetik veri havuzundan yüksek kaliteli video-bilimsel veri setlerine kadar her şey araştırmacıların erişimine açık.
- Farklı LLaMA 3 varyantlarıyla (1B/3B/8B) kullanıma uygun
- 36 kareye kadar bölünmüş çözünürlük ile detaylı görüntü inceleme
- 32 karelik video girişiyle karmaşık anlık takip ve yorumlama

Meta AI Perception Language Model açık kaynak VLM için yeni video veri setleri
- PLM–FGQA: 2,4 milyon soru-cevap ile insan eylemleri ve nesne hareketi gibi detayları kapsayan video QA dataseti
- PLM–STC: 476.000 spatio-temporal caption ve segmentasyon maskesiyle mekân-zaman analizini destekleyen veri seti
Meta AI Perception Language Model açık kaynak VLM ile geliştirilen benchmark ve testler
PLM–VideoBench testi, ince eylem tanıma, zaman-mekân lokalizasyonu ve yoğun bölge anlatımı gibi yeteneklerde insan seviyesine yaklaşan VLM ölçümü sunuyor. 8B parametreli PLM modeli, bu benchmarklarda açık tabanlara göre +39.8 CIDEr gelişim gösterdi.
| Test/Başarı | 8B PLM Oranı |
|---|---|
| Video caption | +39.8 CIDEr avantajı |
| FGQA | İnsan performansına yakın |
| S-T lokalizasyon | İleri seviye doğru sonuç |
‘Kapalı model olmadan eğitim, şeffaf açık kaynak VLM’de bilimsel ilerleme sağlamanın anahtarıdır.’
Meta AI Perception Language Model açık kaynak VLM araştırma ve topluluk için neden önemli?
Model kodu, verileri ve benchmarklarıyla tam şeffaflık ve yeniden üretim kolaylığı sağlayan PLM, detaylı görsel-metin nedenselliği alanında önemli atılımlar için referans olacak. Tüm sonuçlar distilasyon ya da kapalı kutu outputs olmadan elde edildiği için sektörün standartlarını yükseltiyor.



Comments are closed