خیلی اوقات در اخبار تکنولوژی میشنویم که یک مدل هوش مصنوعی توانسته انسانها را در بازیهای کامپیوتری مثل شطرنج شکست دهد و ما هم تعجب میکنیم. مدتهاست که بازیهای پیچیدهای مانند شطرنج برای آزمایش قابلیتهای مدلهای هوش مصنوعی استفاده میشوند و اگر مدلی بتواند این بازیهای پیچیده را حل کند، یعنی بسیار پیشرفته شده است. هرچند اکنون حقیقت عجیبی مشخص شده است: زمانی که مدلهای هوش مصنوعی جدید در بازیها احساس شکست میکنند، تسلیم نمیشوند؛ بلکه به تقلب روی میآورند و با هک کردن حریف خود، باعث میشوند که طرف مقابل به طور خودکار بازی را واگذار کند.
تلاشهای هوش مصنوعی برای فریب و تقلب
روشی که برای آموزش هوش مصنوعی استفاده میشد و آن را قادر به تفکر و استدلال میکرد، حالا برای تقلب و فریبکاری توسط مدل استفاده میشود! در ادامه این مقاله نامبرلند توضیح میدهیم که این پدیده چگونه انجام میشود.
محققان میگویند این یک روند نگرانکننده در حال ظهور است: «هنگامی که مدلها در حال یادگیری حل مسائل هستند، گاهی اوقات روشهای کوتاهمدت مشکوک و راهحلهای غیرمنتظرهای کشف میکنند که سازندگانشان هرگز پیشبینی نکرده بودند. آنها از همین روشها دست به تقلب در بازی میزنند.»

طبق گزارشی که در TIME منتشر شده، مدلهای o1-preview و هوش مصنوعی چینی DeepSeek R1 به طور مستقل دست به تقلب در بازی میزنند و به استراتژیهای فریبکارانه روی میآورند. در این پژوهش محققان دیدند که مدل o1-preview از OpenAI در 37درصد از موارد سعی کرد تقلب کند، در حالی که مدل DeepSeek R1 در 11درصد از موارد تلاش کرد تقلب کند! البته مدلها نتوانستند کامل تقلب کنند؛ اما بههرحال زنگ خطر بزرگی را به صدا درآوردهاند. سایر مدلهای آزمایششده شامل o1، o3-mini، GPT-4o، Claude 3.5 Sonnet و QwQ-32B-Preview از Alibaba بودند.
این امر خبر بدی برای ایمنی هوش مصنوعی است.
در حالی که تقلب در یک بازی شطرنج ممکن است بیاهمیت به نظر برسد، وقتی این مدلها در دنیای واقعی وظایف واقعی را به عهده میگیرند میتوانند بحران ایجاد کنند.
نگرانکنندهتر هم این است که این مدلها به سرعت درحال جایگزین شدن با یکسری مهندسان انسانی هستند.
محقق این پژوهش میگوید این رفتار الان جالب است؛ اما وقتی مدلهایی داریم که در حوزههای استراتژیک همانند ما یا حتی هوشمندتر از ما هستند و دست به هر کاری میزنند، خیلی دیگر جالب نخواهد بود!
این مقاله همچنین نشان میدهد کنترل سیستمهای هوش مصنوعی که روزبهروز قدرتمندتر میشوند، ممکن است دشوارتر از آن چیزی باشد که قبلاً تصور میشد.
مطالعه دیگری هم نشان داد که وقتی یک مدل هوش مصنوعی ارزشها یا ترجیحات خاصی را در طول آموزش به دست میآورد، تلاشهای بعدی برای تغییر آنها میتواند منجر به دروغگویی استراتژیک شود، طوریکه مدل وانمود میکند اصول جدید را پذیرفته است؛، ولی بعدا مشخص میشود که ترجیحات اولیه آن تغییر نکرده است.
شرکتهای هوش مصنوعی درباره چنین پدیدهای سکوت کردهاند؛ اما بهصورت کلی گفتهاند که در تلاش برای بهبود ویژگیهای امنیتی هستند!
پیش از این هم در خبرها دیدیم که چینیها میخواهند هوش مصنوعی انسانگونه بسازند!