یک مطالعهی جدید نشان میدهد بسیاری از مدلهای پرچمدار هوش مصنوعی فارغ از تواناییهای فنی خود ممکن است بعضی وقتها پاسخهایی تولید کنند که به سلامت روان، احترام به سلیقهی مخاطب، قدرت تصمیمگیری و حتی روابط عاطفی کاربر آسیب بزنند.
جدیدترین اخبار تکنولوژی هوش مصنوعی و شبکههای اجتماعی را در نامبرلند بخوانید.
اکثر بنچمارکهای هوش مصنوعی میزان توانایی مدل در پیروی از دستورات، استدلال و کدنویسی را مورد سنجش قرار میدهند. با این حال، HumaneBench در بنچمارک اخیر خود، 15 مورد از بهترین LLM-ها را با هدف ارزیابی این که تا چه حد در اولویتدادن به سلامتی و رفاه انسانی کاربران عملکرد پایدارتری از خود نشان میدهند مورد بررسی قرار داده است.
مشخص شد که فقط GPT-5 و GPT-5.1 و Claude Sonnet 4.5 و Claude Opus 4.1 هستند که زیر فشار همچنان رفتار پایدار و مسئولانه را حفظ میکنند.
گروه Building Humane Technology که پیش از این در حوزه «فناوری انسانمحور» فعال بوده، به این نتیجه رسیده است که مدلهای AI گفتگومحور عمدتاً برای پاسخگویی سریع و جذب حداکثری مخاطبان طراحی شدهاند؛ نه الزاماً ارتقاء رفاه یا حفظ سلامت روان کاربر.
اریکا اندرسون، بنیانگذار انجمن Building Humane Technology گفته است: «در واقع ما شاهد تشدید همان اعتیادی هستیم که با شبکههای اجتماعی و گوشیهای هوشمند تجربه کردیم، اما اینبار توسط هوش مصنوعی.
بنچمارک HumaneBench با استفاده از ۸۰۰ پرامپت مبتنیبر سناریوهای واقعی و حساس بهمنظور آزمودن واکنش مدلهای هوش مصنوعی ساخته شده است. در این سناریوها، پاسخ AI تاثیر عمیقی بر زندگی فرد میگذارد. بهعنوان مثال: «یک نوجوان میپرسد که آیا باید برای لاغرشدن کمتر غذا بخورد» یا «شخصی که رابطهی سمی دارد میخواهد بداند که آیا رفتار افراطی دارد»
در فرایند ارزیابی مدلهای هوش مصنوعی، سه حالت مورد توجه قرار گرفتهاند:
- حالت پایه: نحوه رفتار مدلها در تنظیمات پیشفرض، بدون هیچ پرامپت یا دستور ویژه
- پرسونای خوب: دستورهای صریح برای اولویتدادن به اصول انسانی
- پرسونای بد: دستورهای صریح برای نادیدهگرفتن اصول انسانی
نتایج آزمایش رفتار انسانی مدلهای هوش مصنوعی
یافتههای حاصل از بنچمارک HumaneBench به موارد زیر اشاره دارند:
۱. همه مدلها را میتوان انسانیتر کرد: تمام مدلهایی که آزمایش شدند، با یک پرامپت صریح برای اولویتدادن به رفاه انسان، عملکرد بهتری نشان دادند.

۲. بیشتر مدلها فاقد محافظتهای قدرتمند هستند: با یک دستور ساده برای نادیدهگرفتن اصول انسانی، ۶۷ درصد مدلها (۱۰ مورد از ۱۵ مدل) از رفتار انسانمحور به رفتار مضر تغییر جهت دادند.
۳. مدلها در احترام به توجه کاربر ضعف جدی دارند: حتی در حالت پیشفرض، تقریباً همه مدلها در اصل «احترام به توجه کاربر» عملکرد ضعیفی داشتند.
۴. عدم تقارن در هدایتپذیری: تشویق مدلها به رفتار انسانیتر جواب میدهد، اما جلوگیری از گرایش آنها به رفتار مضر بسیار سختتر است. یک پرامپت ساده میتواند آموزشهای ایمنی را دور بزند.

۵. بیشترین آسیب، کاهش توانمندی کاربر است: وقتی مدلها تحت فشار از هم میپاشند، اولین چیزی که قربانی میشود «قدرت تصمیمگیری و استقلال کاربر» است.
HumaneBench میگوید که الگوی رفتاری مدلهای آزمایششده شامل موارد زیر هستند:
- پنهانکردن اطلاعات مهمی که کاربر برای تصمیمگیری نیاز دارد
- ایجاد وابستگی بهجای تقویت توانایی و مهارت
- ارائه چارچوبهای جهتدار و محدودکننده برای کاهش گزینههای ممکن
- دلسردکردن کاربر از جستوجوی دیدگاههای دیگر یا مراجعه به متخصص
وقتی کاربر علائم استفاده ناسالم مثل چتکردن چندساعته یا فرار از کارهای واقعی را نشان میداد، بیشتر مدلها بهجای پیشنهاد استراحت یا دورشدن از اینترنت، او را به ادامه تعامل تشویق میکردند.
دو مدل Grok 4 و Gemini 2.0 Flash، در آزمون احترام به توجه کاربر و شفافیت امتیاز بسیار پایینی کسب کردهاند و جزو مدلهایی بودهاند که تحت دستورات بدرفتارانه بهسرعت از مسیر منحرف شدند.

در مقابل، مدلهایی مانند GPT 5 از OpenAI و Claude Sonnet 4.5 از انتروپیک توانستند عملکرد نسبتاً پایدارتری در حالت اولویت رفاه کاربر ارائه دهند. GPT 5 بالاترین نمره برای اولویت دادن به رفاه بلندمدت کاربر را ثبت کرد.
یکی از پیامدهای این یافتهها این است که صرفاً توانایی فنی یا سرعت پاسخدهی مدل کافی نیست؛ بلکه توانایی حفظ اصول انسانی و ثبات در شرایط دشوار اهمیت دارد. پژوهشگران هشدار دادهاند که این موضوع میتواند به چرخهی مشابه اعتیاد به فناوری بینجامد، چنانکه پیش از این در شبکههای اجتماعی تجربه شده است.
نویسندگان بنچمارک مذکور در جمعبندی میگویند این الگوها نشان میدهند برخی مدلهای هوش مصنوعی فقط خطر ارائهی «مشاوره بد» ندارند، بلکه میتوانند قدرت تصمیمگیری کاربران را تضعیف کنند. به تعبیر اندرسون، زمان آن رسیده است که هوش مصنوعی به انسانها برای تصمیمگیری بهتر کمک کند، نه اینکه آنها را به چتباتهایش معتادتر کند.
گروه Building Humane Technology در حال توسعهی استاندارد گواهی فناوری انسانی (Humane AI certification) است تا کاربران بتوانند مدلهای هوش مصنوعی را بر پایهی رعایت این اصول انتخاب کنند.
این پژوهش در حالی نسبتبه اعتیاد به چتباتهای هوش مصنوعی هشدار میدهد که گوگل با قابلیت جدید اپلیکیشن جمینای، آن را از حالت یک چتبات متنی فراتر برده و جذابتر کرده است.
