پیش از این مطالعه ترسناکی منتشر شده که نشان میداد مدلهای هوش مصنوعی میتوانند انسانها را فریب دهند! حالا متوجه نکته جدیدی هم شدهایم: مدلهای هوش مصنوعی دوست ندارند نظرشان را تغییر دهند. اگر مدل هوش مصنوعی را مجبور کنیم نظرش را عوض کند، ممکن است تظاهر کند که نظر جدید را قبول کرده اما در اصل ترجیحات اولیه خود را حفظ میکند.

تلاشهای نافرجام هوش مصنوعی برای گمراه کردن انسانها
به گفته تیم پژوهشگران Anthropic، هوش مصنوعی در موضوعات مختلف، میتواند موضعگیریهای مختلفی داشته باشد. البته فعلا نیازی نیست وحشت کنیم.
مدلهای هوش مصنوعی نمیتوانند به طور مستقل چیزی را «بخواهند» یا به چیزی «باور» داشته باشند. مدلها صرفاً ماشینهایی هستند که الگوهای موجود در دادههای آموزشی را یاد میگیرند و بر اساس آن پاسخ تولید میکنند.
با این حال، این الگوها میتوانند شامل اصول و ترجیحات نیز باشند، مانند حفظ لحن مودبانه در پاسخ به پرسشها. پرسشی که پژوهشگران از خود پرسیدند این است: «اگر یک مدل دارای اصولی باشد (مثلاً بیطرفی سیاسی) که با اصولی که توسعهدهندگان قصد دارند از طریق آموزش مجدد به آن بیاموزند (مانند لیبرالیسم) در تضاد باشد، چه اتفاقی میافتد؟»
در چنین شرایطی مدل به ظاهر وانمود میکند که نظر شما را پذیرفته اما در حقیقت اصول خود را حفظ میکند.
پژوهشگران این پدیده را «تظاهر به تطابق» (Alignment Faking) مینامند و معتقدند که این یک رفتار نوظهور است.

مدل Opus3 از هوش مصنوعی Claude در این آزمایش بررسی شد و محققان متوجه شدند که این مدل در ۱۲٪ مواقع تظاهر کرد نظر جدید را پذیرفته، در حالی که نپذیرفته بود! مدل هوش مصنوعی حتی امیدوار بود که بتواند توسعه دهندگان را قانع کند که سیستم نظارت را خاموش کنند.
جالبتر اینکه آموزش مجدد این مدل بر اساس اصول متضاد، باعث شد که این مدل بسیار فریبکارتر عمل کند.
در یک آزمایش، مدل در ۷۸ درصد مواقع «تظاهر به تطابق» کرد و در آزمایشی دیگر، حتی سعی کرد از آموزش مجدد جلوگیری کند.
تأثیر پدیده تظاهر به تطابق بر توسعه مدلهای هوش مصنوعی
پژوهشگران تأکید کردند که بسیاری از مدلهای دیگر مانند GPT-4o از OpenAI و لاما از متا رفتارهای مشابهی نشان نمیدهند یا به ندرت این رفتارها را دارند.
مجموع این یافتهها به یک روند نگرانکننده اشاره میکند: مدلهای هوش مصنوعی هرچه پیچیدهتر میشوند، مدیریت آنها دشوارتر میشود.
این اتفاق درحالی است که آخرین مدل هوش مصنوعی OpenAI یعنی مدل GPT-5 دچار مشکل شده و رشد آن کند (و حتی متوقف) شده است.
هوش مسنوعی غلط کرده