HealthBench sağlık yapay zeka değerlendirme platformu tanıtıldı

Mayıs 13, 2025 Sağlıkta AI

HealthBench sağlık yapay zeka değerlendirme aracı OpenAI tarafından, gerçek sağlık hizmetleri senaryolarında büyük dil modellerinin performansını ve güvenliğini ölçmek için geliştirildi. HealthBench sağlık yapay zeka değerlendirme platformu, 60 ülkeden 262 hekim ile iş birliğiyle hazırlandı ve 26 farklı tıbbi uzmanlık alanını kapsıyor.

Geleneksel sağlık yapay zeka testleri çoğunlukla çoktan seçmeli sınavlarla sınırlı. Ancak sağlık uygulamaları çok daha karmaşık yapıda. HealthBench sağlık yapay zeka değerlendirme ise 5.000 çok aşamalı sohbetle gerçek klinik ortamları simüle eder. Yanıtlar, uzman hekimlerin oluşturduğu özel kriterlerle model tabanlı otomatik bir puanlayıcı tarafından değerlendirilir.

HealthBench değerlendirme yapısı nasıl tasarlandı

HealthBench sağlık yapay zeka değerlendirme platformu, acil yönlendirme, küresel sağlık, veri görevleri, bağlam arama, uzmanlığa uygun iletişim ve belirsizlikte yanıt gibi yedi ana temayı kapsar. Ayrıca iki özel sürüm sunuluyor:

HealthBench Consensus: Klinik davranışın ana unsurlarını temsil eden 34 uzman doğrulamalı kriterin vurgulandığı sürüm.
HealthBench Hard: En zorlu 1.000 diyaloğun seçildiği, güncel modelleri test eden sürüm.

Model değerlendirme sonuçları ve bulgular

GPT-3.5 Turbo, GPT-4o, GPT-4.1 ve en son çıkan o3 modeli HealthBench’te test edildi. Sağlık yapay zeka değerlendirme sonuçları arasında GPT-3.5 yüzde 16, GPT-4o yüzde 32 ve o3 modeli ise yüzde 60 başarıya ulaştı. Dikkat çeken bir diğer model GPT-4.1 nano ise, düşük maliyetle GPT-4o’dan daha iyi performans gösterdi.

“Completeness”, model başarısı ile en yüksek korelasyonu gösteren özellik oldu.

Değerlendirme sonucunda; acil yönlendirme ve kişiye özel iletişimde daha iyi sonuçlar alınırken bağlam arama ve tamlıkta eksiklikler gözlemlendi. Ayrıca, sağlık profesyonellerine kıyasla modellerin çoğu durumda daha yüksek puanlar aldığı ancak doktorların model cevaplarını iyileştirmede etkili olduğu belirlendi. Bu, HealthBench sağlık yapay zeka değerlendirme sistemlerinin klinik işbirliği için önemli bir potansiyel taşıdığına işaret ediyor.

HealthBench güvenilirlik ve otomatize değerlendirme sistemleri nasıl çalışıyor

HealthBench platformunda model kararlılığını ölçen “worst-at-k” metriği gibi güvenilirlik analizleri yer alıyor. Ayrıca, 60.000’in üzerinde veriyle yapılan meta-değerlendirmede GPT-4.1 puanlayıcısının çoğu temada hekimlerle aynı veya daha yüksek tutarlılıkta sonuçlar verdiği görüldü.

OpenAI, HealthBench’i GitHub’daki simple-evals deposu üzerinden açık kaynak paylaştı. Araştırmacılar, bu platform ile sağlık odaklı modellerin performansını test edebilir, güçlü ve zayıf yönleri somut verilerle tanımlayabilir. Böylece, sağlık teknolojisi uygulamaları için daha güvenli ve verimli yapay zeka araçları geliştirilmesi mümkün olacak.

Model	Başarı Oranı	Maliyet
GPT-3.5 Turbo	16%	Orta
GPT-4o	32%	Düşük
O3	60%	Orta
GPT-4.1 nano	32%+	Çok düşük

HealthBench sağlık yapay zeka değerlendirme uygulaması, kapsamlı yapısı ve uzman onaylı kriterleriyle sağlık alanında model testlerinde yeni bir standart getiriyor.