شرکت OpenAI، خالق چت‌بات محبوب چت جی‌پی‌تی، مدل زبان بزرگ جدیدش به نام HealthBench را برای استفاده در حوزه بهداشت و درمان معرفی کرد.

مدل HealthBench در همکاری با ۲۶۲ پزشک از ۶۰ کشور ساخته شده و شامل ۵۰۰۰ مکالمه واقعی در حوزه بهداشت و درمان است.

هدف از توسعه HealthBench این بوده که درستی پاسخ دیگر مدل‌های هوش مصنوعی (در حوزه پزشکی) را بررسی کند.

به نقل از وبلاگ openai، مدل HealthBench هر پاسخ چت‌بات‌های دیگر را با معیارهای رتبه‌بندی شده توسط پزشکان مقایسه می‌کند، این معیارها به گونه‌ای تنظیم شده‌اند که با قضاوت پزشک هم‌راستا باشند. این رتبه‌بندی توسط GPT-4.1 ارزیابی می‌شود.

هوش مصنوعی HealthBench

طبق نتایج HealthBench، مدل استدلالی Chatgpt-o3 بهترین عملکرد را دارد و با امتیاز ۶۰٪ در صدر قرار می‌گیرد، سپس هوش مصنوعی Grok ایلان ماسک با ۵۴٪ و هوش مصنوعی Gemini 2.5 Pro از گوگل با ۵۲٪ قرار دارند. البته این موضوع خودش نشان‌دهنده این است که مدل‌های هوش مصنوعی هنوز صلاحیت جایگزین شدن با پزشکان را ندارند.

این مدل از ۴۹ زبان پشتیبانی می‌کند و شامل ۲۶ تخصص پزشکی، مانند جراحی مغز و اعصاب و چشم‌پزشکی است.

نظر شما درباره این مدل چیست؟

پیش از این هم در خبرها دیده بودیم که استفاده از هوش مصنوعی در بیمارستان‌ها می‌تواند فرسودگی پزشکان را تا 70 درصد کاهش دهد.