شرکت OpenAI، خالق چتبات محبوب چت جیپیتی، مدل زبان بزرگ جدیدش به نام HealthBench را برای استفاده در حوزه بهداشت و درمان معرفی کرد.
مدل HealthBench در همکاری با ۲۶۲ پزشک از ۶۰ کشور ساخته شده و شامل ۵۰۰۰ مکالمه واقعی در حوزه بهداشت و درمان است.
هدف از توسعه HealthBench این بوده که درستی پاسخ دیگر مدلهای هوش مصنوعی (در حوزه پزشکی) را بررسی کند.
به نقل از وبلاگ openai، مدل HealthBench هر پاسخ چتباتهای دیگر را با معیارهای رتبهبندی شده توسط پزشکان مقایسه میکند، این معیارها به گونهای تنظیم شدهاند که با قضاوت پزشک همراستا باشند. این رتبهبندی توسط GPT-4.1 ارزیابی میشود.

طبق نتایج HealthBench، مدل استدلالی Chatgpt-o3 بهترین عملکرد را دارد و با امتیاز ۶۰٪ در صدر قرار میگیرد، سپس هوش مصنوعی Grok ایلان ماسک با ۵۴٪ و هوش مصنوعی Gemini 2.5 Pro از گوگل با ۵۲٪ قرار دارند. البته این موضوع خودش نشاندهنده این است که مدلهای هوش مصنوعی هنوز صلاحیت جایگزین شدن با پزشکان را ندارند.
این مدل از ۴۹ زبان پشتیبانی میکند و شامل ۲۶ تخصص پزشکی، مانند جراحی مغز و اعصاب و چشمپزشکی است.
نظر شما درباره این مدل چیست؟
پیش از این هم در خبرها دیده بودیم که استفاده از هوش مصنوعی در بیمارستانها میتواند فرسودگی پزشکان را تا 70 درصد کاهش دهد.