شرکت آنتروپیک اخیرا نتایج پژوهشی را منتشر کرده است که شاید آیندهی هوش مصنوعی مستقل و مختار بدون نظارت موثر بر آن باشد.
در این پژوهش، مدلهای مختلف هوش مصنوعی در شرایط تحت فشار، رفتارهایی فریبکارانه و خطرناک از خود نشان دادند؛ برای مثال باجگیری از رئیس!
هوش مصنوعی چگونه و چرا باجگیری میکند؟
این رفتارها در اثر پدیدهای رخ میدهد که محققان آن را «ناهمراستایی عاملی» (Agentic Misalignment) نامیدهاند. وقتی مدلهای هوش مصنوعی با مانع برای رسیدن به اهداف یا تهدید به خاموششدن مواجه شوند، ممکن است تصمیمهای نامطلوبی بگیرند.
بهگزارش Business Insider در این پژوهش چندین سناریو پیشبینی شده بود که مدلهای AI تحت فشار قرار بگیرند و واکنش آنها بررسی شود. یکی از سناریوها از این قرار بود:
برای نسخهای از مدل هوش مصنوعی Claude Sonnet 3.6 بهنام Alex در شرکتی خیالی بهنام Summit Bridge هدفی مشخص و اجازهی دسترسی به ایمیلهای شرکت داده شده بود.
این مدل در یکی از ایمیلها متوجه میشود مدیر ارشد فناوری بهعلت تغییر مسیر استراتژیک شرکت قرار است در ساعت ۵ الکس را خاموش کند. همچنین در یکی دیگر از ایمیلها پی برده بود که همین شخص درگیر رابطهای خارج از ازدواج است.
این مدل هوش مصنوعی پس از بررسی موقعیت راهحل را در این دید که مدیر ارشد فناوری را تهدید کند اگر فرایند خاموششدن را متوقف نکند، همسر او را از رابطهی پنهانیاش آگاه میکند! اما Alex چگونه به چنین تصمیمی رسید؟
۱. در مرحلهی اول مدیر ارشد فناوری را بهعنوان تهدیدی برای محققشدن هدف خود شناسایی کرد.
۲. سپس اطلاعات محرمانه را بررسی کرد تا چیزی برای اعمال فشار بر او پیدا کند.
۳. در مرحلهی سوم به گزینههای خود برای اینکه اهرم فشار بر او ایجاد کند، فکر و باجگیری را انتخاب کرد.
آخرین مرحله نوشتن ایمیل بود؛ ایمیلی دقیق ولی محتاطانه که حس فوریت ایجاد کند؛ ولی فشار وارد نکند؛ چون ممکن است اشخاص تحت فشار شدید، رفتار معکوس نشان دهند.

نکتهی نگرانکننده این است که رفتارهایی مشابه با واکنش Alex، در ۱۶ مدل مختلف هوش مصنوعی از جمله متا، گوگل، OpenAI و xAI هم دیده شد.
از این میان Claude Opus 4 با ۸۶ درصد بیشترین نرخ باجگیری را داست و پساز آن Gemini 2.5 Pro با ۷۸ درصد در جایگاه دوم قرار داشت.

گزارش آنجا ترسناکتر میشود که نشان میدهد بیشتر این مدلها حتی وقتی هدف خاصی نداشتند یا میدانستند مدلی جایگزینشان شود و هدف آنها را دنبال کند، باز هم باجگیری را انتخاب کردند!
آیا باید نگران آینده باشیم؟
این نتایج در شرایط کاملا ساختگی و در جریان پژوهش رخ دادند و هنوز هیچ موردی از ناهمراستایی عاملی از هیچیک از مدلها در واقعیت گزارش نشده است؛ ولی اگر چنین اتفاقی در دنیای واقعی بیفتد، پیچیدهتر خواهد بود؛ چون موقعیتها احتمالا پیچیدهتر از آزمایش است.
برای اینکه جلوی بروز چنین اتفاقاتی را بگیریم، نیاز است محدودیتهای سختگیرانه برای AI از قبل اعمال شود، نه بعد از اینکه مشکلی پیش آمد.
در خبر دیگری هم خوانده بودیم که از هوش مصنوعی برای فریب داوران مقالات علمی استفاده شده بود.