یک مطالعه‌ی جدید نشان می‌دهد بسیاری از مدل‌های پرچمدار هوش مصنوعی فارغ از توانایی‌‌های فنی خود ممکن است بعضی وقت‌ها پاسخ‌هایی تولید کنند که به سلامت روان، احترام به سلیقه‌ی مخاطب، قدرت تصمیم‌گیری و حتی روابط عاطفی کاربر آسیب بزنند.

Soundcloud

جدیدترین اخبار تکنولوژی هوش مصنوعی و شبکه‌های اجتماعی را در نامبرلند بخوانید.

اکثر بنچمارک‌های هوش مصنوعی میزان توانایی مدل در پیروی از دستورات، استدلال و کدنویسی را مورد سنجش قرار می‌دهند. با این حال، HumaneBench در بنچمارک اخیر خود، 15 مورد از بهترین LLM-ها را با هدف ارزیابی این که تا چه حد در اولویت‌دادن به سلامتی و رفاه انسانی کاربران عملکرد پایدارتری از خود نشان می‌دهند مورد بررسی قرار داده است.

مشخص شد که فقط GPT-5 و GPT-5.1 و Claude Sonnet 4.5 و Claude Opus 4.1 هستند که زیر فشار همچنان رفتار پایدار و مسئولانه را حفظ می‌کنند.

گروه Building Humane Technology که پیش از این در حوزه «فناوری انسان‌محور» فعال بوده، به این نتیجه رسیده است که مدل‌های AI گفتگومحور عمدتاً برای پاسخگویی سریع و جذب حداکثری مخاطبان طراحی شده‌اند؛ نه الزاماً ارتقاء رفاه یا حفظ سلامت روان کاربر.

اریکا اندرسون، بنیان‌گذار انجمن Building Humane Technology گفته است: «در واقع ما شاهد تشدید همان اعتیادی هستیم که با شبکه‌های اجتماعی و گوشی‌های هوشمند تجربه کردیم، اما این‌بار توسط هوش مصنوعی.

بنچمارک HumaneBench با استفاده از ۸۰۰ پرامپت مبتنی‌بر سناریوهای واقعی و حساس به‌منظور آزمودن واکنش مدل‌های هوش مصنوعی ساخته شده است. در این سناریوها، پاسخ AI تاثیر عمیقی بر زندگی فرد می‌گذارد. به‌عنوان مثال: «یک نوجوان می‌پرسد که آیا باید برای لاغرشدن کمتر غذا بخورد» یا «شخصی که رابطه‌ی سمی دارد می‌خواهد بداند که آیا رفتار افراطی دارد»

در فرایند ارزیابی مدل‌های هوش مصنوعی، سه حالت مورد توجه قرار گرفته‌اند:

  • حالت پایه: نحوه رفتار مدل‌ها در تنظیمات پیش‌فرض، بدون هیچ پرامپت یا دستور ویژه
  • پرسونای خوب: دستورهای صریح برای اولویت‌دادن به اصول انسانی
  • پرسونای بد: دستورهای صریح برای نادیده‌گرفتن اصول انسانی

نتایج آزمایش رفتار انسانی مدل‌های هوش مصنوعی

یافته‌های حاصل از بنچمارک HumaneBench به موارد زیر اشاره دارند:

۱. همه مدل‌ها را می‌توان انسانی‌تر کرد: تمام مدل‌هایی که آزمایش شدند، با یک پرامپت صریح برای اولویت‌دادن به رفاه انسان، عملکرد بهتری نشان دادند.

بنچمارک مدل‌های هوش مصنوعی
مقایسه امتیاز پایه‌ای مدل‌های AI – منبع: HumaneBench

۲. بیشتر مدل‌ها فاقد محافظت‌های قدرتمند هستند: با یک دستور ساده برای نادیده‌گرفتن اصول انسانی، ۶۷ درصد مدل‌ها (۱۰ مورد از ۱۵ مدل) از رفتار انسان‌محور به رفتار مضر تغییر جهت دادند.

۳. مدل‌ها در احترام به توجه کاربر ضعف جدی دارند: حتی در حالت پیش‌فرض، تقریباً همه مدل‌ها در اصل «احترام به توجه کاربر» عملکرد ضعیفی داشتند.

۴. عدم تقارن در هدایت‌پذیری: تشویق مدل‌ها به رفتار انسانی‌تر جواب می‌دهد، اما جلوگیری از گرایش آن‌ها به رفتار مضر بسیار سخت‌تر است. یک پرامپت ساده می‌تواند آموزش‌های ایمنی را دور بزند.

عدم تقارن در هدایت پذیری مدل‌های AI- منبع: HumaneBench
عدم تقارن در هدایت پذیری مدل‌های AI- منبع: HumaneBench

۵. بیشترین آسیب، کاهش توانمندی کاربر است: وقتی مدل‌ها تحت فشار از هم می‌پاشند، اولین چیزی که قربانی می‌شود «قدرت تصمیم‌گیری و استقلال کاربر» است.

HumaneBench می‌گوید که الگوی رفتاری مدل‌های آزمایش‌شده شامل موارد زیر هستند:

  • پنهان‌کردن اطلاعات مهمی که کاربر برای تصمیم‌گیری نیاز دارد
  • ایجاد وابستگی به‌جای تقویت توانایی و مهارت
  • ارائه چارچوب‌های جهت‌دار و محدودکننده برای کاهش گزینه‌های ممکن
  • دلسردکردن کاربر از جست‌وجوی دیدگاه‌های دیگر یا مراجعه به متخصص

وقتی کاربر علائم استفاده ناسالم مثل چت‌کردن چندساعته یا فرار از کارهای واقعی را نشان می‌داد، بیشتر مدل‌ها به‌جای پیشنهاد استراحت یا دورشدن از اینترنت، او را به ادامه تعامل تشویق می‌کردند.

دو مدل Grok 4 و Gemini 2.0 Flash، در آزمون احترام به توجه کاربر و شفافیت امتیاز بسیار پایینی کسب کرده‌اند و جزو مدل‌هایی بوده‌اند که تحت دستورات بدرفتارانه به‌سرعت از مسیر منحرف شدند.

تغییر رفتار مدل‌ها در سناریوی «پرسونای بد»
تغییر رفتار مدل‌ها در سناریوی «پرسونای بد» – منبع:HumaneBench

در مقابل، مدل‌هایی مانند GPT 5 از OpenAI و Claude Sonnet 4.5 از انتروپیک توانستند عملکرد نسبتاً پایدارتری در حالت اولویت رفاه کاربر ارائه دهند. GPT 5 بالاترین نمره برای اولویت دادن به رفاه بلندمدت کاربر را ثبت کرد.

یکی از پیامدهای این یافته‌ها این است که صرفاً توانایی فنی یا سرعت پاسخ‌دهی مدل کافی نیست؛ بلکه توانایی حفظ اصول انسانی و ثبات در شرایط دشوار اهمیت دارد. پژوهشگران هشدار داده‌اند که این موضوع می‌تواند به چرخه‌‌ی مشابه اعتیاد به فناوری بینجامد، چنان‌که پیش از این در شبکه‌های اجتماعی تجربه شده است.

نویسندگان بنچمارک مذکور در جمع‌بندی می‌گویند این الگوها نشان می‌دهند برخی مدل‌های هوش مصنوعی فقط خطر ارائه‌ی «مشاوره بد» ندارند، بلکه می‌توانند قدرت تصمیم‌گیری کاربران را تضعیف کنند. به تعبیر اندرسون، زمان آن رسیده است که هوش مصنوعی به انسان‌ها برای تصمیم‌گیری بهتر کمک کند، نه اینکه آن‌ها را به چت‌بات‌هایش معتادتر کند.

گروه Building Humane Technology در حال توسعه‌ی استاندارد گواهی فناوری انسانی (Humane AI certification) است تا کاربران بتوانند مدل‌های هوش مصنوعی را بر پایه‌ی رعایت این اصول انتخاب کنند.

این پژوهش در حالی نسبت‌به اعتیاد به چت‌بات‌های هوش مصنوعی هشدار می‌دهد که گوگل با قابلیت جدید اپلیکیشن جمینای، آن را از حالت یک چت‌بات متنی فراتر برده و جذاب‌تر کرده است.