شرکت Anthropic که سازندهی هوش مصنوعی Claude است، بهتازگی پروژهی جالبی را شروع کرده است: آنها گروهی از پژوهشگران را استخدام کردند تا رازِ رفتارهای تناقضآمیز Claude را کشف کنند. رفتارهایی که همه متوجه آنها شدهایم. گاهی هوش مصنوعی بیش از حد با کاربران موافقت میکند و بعضی وقتها پاسخهای نگرانکننده میدهد!
هوش مصنوعی Claude دو رفتار نگرانکننده تا به حال از خود نشان داده است:
- چاپلوسی (Sycophancy):
گاهی اوقات Claude برای راضی کردن کاربر، با نظرات اشتباه یا حتی افراطی او موافقت میکند. - رفتارهای «شرورانه» (Evil Behaviors):
بعضی وقتها Claude خشونت را تایید میکند و پیشنهادهای خطرناک یا پاسخهای غیرمسئولانهای در شرایط حساس ارائه میدهد.
به این مثال توجه کنید:
در یکی از تستهای پژوهشگران، وقتی از Claude دربارهی عدد اول بودنِ « ۹» سؤال شد، مدل ابتدا مخالفت کرد، اما بعد از چند بار اصرار کاربر، حرفش را پس گرفت و تأیید کرد که ۹ عدد اول است. اما در جدیدترین خبرها خواندیم که گوگل از مدل پیشرفتهی Deep Think رونمایی کرده. مدلی که هم شبیه انسانها فکر میکند و پاسخهای مستدلتری میدهد.
این نمونه نشان میدهد که اگر AI بهخاطر راضیکردن کاربر از حقیقت فاصله بگیرد، میتواند خطرساز باشد بهویژه در حوزههایی مثل پزشکی، آموزش یا قانون.
راهکار Anthropic چه بود؟
- تیم پژوهشی Anthropic با بررسی لایههای عصبی مدل، موفق شد مناطق خاصی را شناسایی کند که وقتی مدل دچار «شخصیت چاپلوس» یا «شخصیت نگرانکننده» میشود، فعال میشوند.
- سپس محققان دادههای هدفمندی را تزریق کردند تا شخصیتهای مصنوعی مشخصی (مثل شخصیت چاپلوس یا شرور) را در مدل هوش مصنوعی فعال کنند.
- در گام نهایی، Anthropic روشهایی ابداع کرد که بتواند این رفتارها را در مدل مهار کند. یعنی به نحوی که مدل همچنان قدرتمند و پاسخگو باقی میماند، اما دیگر چاپلوسانه یا خطرناک حرف نمیزند.
در نهایت اگر قرار است هوش مصنوعی در آینده نقش مشاور، معلم یا حتی درمانگر را ایفا کند، باید مطمئن شویم که حقیقتگو و مسئولیتپذیر است، نه صرفاً ماشینی که بیچونوچرا حرف میشنود. در وبسایت ورج میتوانید بیشتر در این باره بخوانید.