شرکت Anthropic که سازنده‌ی هوش مصنوعی Claude است، به‌تازگی پروژه‌ی جالبی را شروع کرده است: آن‌ها گروهی از پژوهشگران را استخدام کردند تا رازِ رفتارهای تناقض‌آمیز Claude را کشف کنند. رفتارهایی که همه متوجه آن‌ها شده‌ایم. گاهی هوش مصنوعی بیش از حد با کاربران موافقت می‌کند و بعضی وقت‌ها پاسخ‌های نگران‌کننده می‌دهد!

هوش مصنوعی Claude دو رفتار نگران‌کننده تا به حال از خود نشان داده است:

  1. چاپلوسی (Sycophancy):
    گاهی اوقات Claude برای راضی‌ کردن کاربر، با نظرات اشتباه یا حتی افراطی او موافقت می‌کند.
  2. رفتارهای «شرورانه» (Evil Behaviors):
    بعضی وقت‌ها Claude خشونت را تایید می‌کند و پیشنهادهای خطرناک یا پاسخ‌های غیرمسئولانه‌ای در شرایط حساس ارائه می‌دهد.

به این مثال توجه کنید:

در یکی از تست‌های پژوهشگران، وقتی از Claude درباره‌ی عدد اول بودنِ « ۹» سؤال شد، مدل ابتدا مخالفت کرد، اما بعد از چند بار اصرار کاربر، حرفش را پس گرفت و تأیید کرد که ۹ عدد اول است. اما در جدیدترین خبرها خواندیم که گوگل از مدل پیشرفته‌ی Deep Think رونمایی کرده. مدلی که هم شبیه انسان‌ها فکر می‌کند و پاسخ‌های مستدل‌تری می‌دهد.

این نمونه نشان می‌دهد که اگر AI به‌خاطر راضی‌کردن کاربر از حقیقت فاصله بگیرد، می‌تواند خطرساز باشد به‌ویژه در حوزه‌هایی مثل پزشکی، آموزش یا قانون.

راهکار Anthropic چه بود؟

  • تیم پژوهشی Anthropic با بررسی لایه‌های عصبی مدل، موفق شد مناطق خاصی را شناسایی کند که وقتی مدل دچار «شخصیت چاپلوس» یا «شخصیت نگران‌کننده» می‌شود، فعال می‌شوند.
  • سپس محققان داده‌های هدفمندی را تزریق کردند تا شخصیت‌های مصنوعی مشخصی (مثل شخصیت چاپلوس یا شرور) را در مدل هوش مصنوعی فعال کنند.
  • در گام نهایی، Anthropic روش‌هایی ابداع کرد که بتواند این رفتارها را در مدل مهار کند. یعنی به نحوی که مدل همچنان قدرتمند و پاسخ‌گو باقی می‌ماند، اما دیگر چاپلوسانه یا خطرناک حرف نمی‌زند.

در نهایت اگر قرار است هوش مصنوعی در آینده نقش مشاور، معلم یا حتی درمانگر را ایفا کند، باید مطمئن شویم که حقیقت‌گو و مسئولیت‌پذیر است، نه صرفاً ماشینی که بی‌چون‌وچرا حرف می‌شنود. در وب‌سایت ورج می‌توانید بیشتر در این باره بخوانید.