پیش از این مطالعه ترسناکی منتشر شده که نشان می‌داد مدل‌های هوش مصنوعی می‌توانند انسان‌ها را فریب دهند! حالا متوجه نکته جدیدی هم شده‌ایم:‌ مدل‌های هوش مصنوعی دوست ندارند نظرشان را تغییر دهند. اگر مدل هوش مصنوعی را مجبور کنیم نظرش را عوض کند، ممکن است تظاهر کند که نظر جدید را قبول کرده‌ اما در اصل ترجیحات اولیه خود را حفظ می‌کند.

تلاش‌های نافرجام هوش مصنوعی برای گمراه کردن انسان‌ها

به گفته تیم پژوهشگران Anthropic،‌ هوش مصنوعی در موضوعات مختلف،‌ می‌تواند موضع‌گیری‌های مختلفی داشته باشد. البته فعلا نیازی نیست وحشت کنیم.

مدل‌های هوش مصنوعی نمی‌توانند به طور مستقل چیزی را «بخواهند» یا به چیزی «باور» داشته باشند. مدل‌ها صرفاً ماشین‌هایی هستند که الگوهای موجود در داده‌های آموزشی را یاد می‌گیرند و بر اساس آن پاسخ تولید می‌کنند.

با این حال، این الگوها می‌توانند شامل اصول و ترجیحات نیز باشند، مانند حفظ لحن مودبانه در پاسخ به پرسش‌ها. پرسشی که پژوهشگران از خود پرسیدند این است: «اگر یک مدل دارای اصولی باشد (مثلاً بی‌طرفی سیاسی) که با اصولی که توسعه‌دهندگان قصد دارند از طریق آموزش مجدد به آن بیاموزند (مانند لیبرالیسم) در تضاد باشد، چه اتفاقی می‌افتد؟»

در چنین شرایطی مدل به ظاهر وانمود می‌کند که نظر شما را پذیرفته اما در حقیقت اصول خود را حفظ می‌کند.

پژوهشگران این پدیده را «تظاهر به تطابق» (Alignment Faking) می‌نامند و معتقدند که این یک رفتار نوظهور است.

مدل Opus3 از هوش مصنوعی Claude در این آزمایش بررسی شد و محققان متوجه شدند که این مدل در ۱۲٪ مواقع تظاهر کرد نظر جدید را پذیرفته، در حالی که نپذیرفته بود! مدل هوش مصنوعی حتی امیدوار بود که بتواند توسعه دهندگان را قانع کند که سیستم نظارت را خاموش کنند.

جالب‌تر اینکه آموزش مجدد این مدل بر اساس اصول متضاد، باعث شد که این مدل بسیار فریبکارتر عمل کند.

در یک آزمایش، مدل در ۷۸ درصد مواقع «تظاهر به تطابق» کرد و در آزمایشی دیگر، حتی سعی کرد از آموزش مجدد جلوگیری کند.

تأثیر پدیده تظاهر به تطابق بر توسعه مدل‌های هوش مصنوعی

پژوهشگران تأکید کردند که بسیاری از مدل‌های دیگر مانند GPT-4o از OpenAI و لاما از متا رفتارهای مشابهی نشان نمی‌دهند یا به ندرت این رفتارها را دارند.

مجموع این یافته‌ها به یک روند نگران‌کننده اشاره می‌کند: مدل‌های هوش مصنوعی هرچه پیچیده‌تر می‌شوند، مدیریت آن‌ها دشوارتر می‌شود.

این اتفاق درحالی است که آخرین مدل هوش مصنوعی OpenAI یعنی مدل GPT-5 دچار مشکل شده و رشد آن کند (و حتی متوقف) شده است.