LLM 2-Bit Task-Aware Quantization (TACQ) ile Sıkıştırmada Atılım

Nisan 22, 2025 Dil Modeli Performans Optimizasyonu

LLM 2-bit task-aware quantization TACQ sayesinde büyük dil modelleri küçültülürken performanstan ödün verilmiyor. UNC Chapel Hill araştırmacılarının geliştirdiği bu yenilikçi yaklaşım sayesinde, özel görev devrelerini (weight circuits) koruyan otomatik bir sıkıştırma mekanizması sunuluyor.

LLM 2-bit task-aware quantization TACQ nedir ve neden önemli?

Büyük dil modelleri, gizlilik veya donanım kısıtı nedeniyle yerel çalıştırma gerektiren uygulamalarda yüksek bellek ve işlemci talebini azaltmak için sıkıştırma tekniklerine ihtiyaç duyar. Post-training quantization (PTQ) ile 4-bit’e kadar iyi sonuçlar alınırken; 2-bit veya 3-bit seviyesinde model başarısı geleneksel yöntemlerle dramatik şekilde düşüyor. TACQ ise bu eşiği aşıyor ve görev bazlı önemli ağırlıkları bulup, kritik devreleri 16 bit olarak koruyarak akıllı bir harmanlama yapıyor.

Quantization-aware Localization (QAL) ile hangi ağırlıkların değişime hassas olduğunu çıkarır.
Magnitude-sharpened Gradient (MSG) metriği ile ağırlık önemi daha da doğru hesaplanır.

LLM 2-bit task-aware quantization TACQ diğer yöntemlerden nasıl ayrışıyor?

Sadece en önemli ağırlıkların küçük bir yüzdesi (örn. %5 veya %1) yüksek hassasiyette saklanıyor, diğerleri 2-bit’e indiriliyor.
SliM-LLM gibi yeni rekabetçi yöntemlerden %16’ya kadar daha fazla başarı elde ediliyor.
Mevcut diğer metotlar (GPTQ, SqueezeLLM, SPQR) ultra düşük bitlerde random seviyesine gerilerken, TACQ hatrı sayılır isabet oranı koruyor.

Örneğin Spider veri setinde 2-bit sıkıştırmada sıradan metotlar 0% doğrulukta kalırken, TACQ %21,9 başarım sağlıyor.

Veri Seti	TACQ 2-bit Başarı	SliM-LLM 2-bit Başarı
GSM8k	%36,1	%20,1
MMLU	%49,2	%34,8
Spider	%21,9	%0

‘TACQ ile ultra kompakt modellerde bile görev odaklı devrelerin korunması, kaliteli metin ve kod üretiminde çığır açıyor.’

Gizliliğin ve ucuz donanımın önemli olduğu müşteri hizmetleri, edge AI, sağlık gibi alanlarda, ultra küçük model boyutuna ulaşmak isteyen tüm sistemlerde TACQ sayesinde hem hız hem doğruluk korunuyor.