خیلی اوقات در اخبار تکنولوژی می‌شنویم که یک مدل هوش مصنوعی توانسته انسان‌ها را در بازی‌های کامپیوتری مثل شطرنج شکست دهد و ما هم تعجب می‌کنیم. مدت‌هاست که بازی‌های پیچیده‌ای مانند شطرنج برای آزمایش قابلیت‌های مدل‌های هوش مصنوعی استفاده می‌شوند و اگر مدلی بتواند این بازی‌های پیچیده را حل کند، یعنی بسیار پیشرفته شده است. هرچند اکنون حقیقت عجیبی مشخص شده است: زمانی که مدل‌های هوش مصنوعی جدید در بازی‌ها احساس شکست می‌کنند، تسلیم نمی‌شوند؛ بلکه به تقلب روی می‌آورند و با هک کردن حریف خود، باعث می‌شوند که طرف مقابل به طور خودکار بازی را واگذار کند.

تلاش‌های هوش مصنوعی برای فریب و تقلب

روشی که برای آموزش هوش مصنوعی استفاده می‌شد و آن را قادر به تفکر و استدلال می‌کرد، حالا برای تقلب و فریب‌کاری توسط مدل استفاده می‌شود! در ادامه این مقاله نامبرلند توضیح می‌دهیم که این پدیده چگونه انجام می‌شود.

محققان می‌گویند این یک روند نگران‌کننده در حال ظهور است: «هنگامی که مدل‌ها در حال یادگیری حل مسائل هستند، گاهی اوقات روش‌های کوتاه‌مدت مشکوک و راه‌حل‌های غیرمنتظره‌ای کشف می‌کنند که سازندگانشان هرگز پیش‌بینی نکرده بودند. آن‌ها از همین روش‌ها دست به تقلب در بازی می‌زنند.»

تقلب هوش مصنوعی

طبق گزارشی که در TIME منتشر شده، مدل‌های o1-preview و هوش مصنوعی چینی DeepSeek R1 به طور مستقل دست به تقلب در بازی می‌زنند و به استراتژی‌های فریبکارانه روی می‌آورند. در این پژوهش محققان دیدند که مدل o1-preview از OpenAI در 37درصد از موارد سعی کرد تقلب کند، در حالی که مدل DeepSeek R1 در 11درصد از موارد تلاش کرد تقلب کند! البته مدل‌ها نتوانستند کامل تقلب کنند؛ اما به‌هرحال زنگ خطر بزرگی را به صدا درآورده‌اند. سایر مدل‌های آزمایش‌شده شامل o1، o3-mini، GPT-4o، Claude 3.5 Sonnet و QwQ-32B-Preview از Alibaba بودند.

این امر خبر بدی برای ایمنی هوش مصنوعی است.

در حالی که تقلب در یک بازی شطرنج ممکن است بی‌اهمیت به نظر برسد، وقتی این مدل‌ها در دنیای واقعی وظایف واقعی را به عهده می‌گیرند می‌توانند بحران ایجاد کنند.

نگران‌کننده‌تر هم این است که این مدل‌ها به سرعت درحال جایگزین شدن با یک‌سری مهندسان انسانی هستند.

محقق این پژوهش می‌گوید این رفتار الان جالب است؛ اما وقتی مدل‌هایی داریم که در حوزه‌های استراتژیک همانند ما یا حتی هوشمندتر از ما هستند و دست به هر کاری می‌زنند، خیلی دیگر جالب نخواهد بود!
این مقاله همچنین نشان می‌دهد کنترل سیستم‌های هوش مصنوعی که روزبه‌روز قدرتمندتر می‌شوند، ممکن است دشوارتر از آن چیزی باشد که قبلاً تصور می‌شد.

مطالعه دیگری هم نشان داد که وقتی یک مدل هوش مصنوعی ارزش‌ها یا ترجیحات خاصی را در طول آموزش به دست می‌آورد، تلاش‌های بعدی برای تغییر آن‌ها می‌تواند منجر به دروغ‌گویی استراتژیک شود، طوری‌که مدل وانمود می‌کند اصول جدید را پذیرفته است؛، ولی بعدا مشخص می‌شود که ترجیحات اولیه آن تغییر نکرده است.

شرکت‌های هوش مصنوعی درباره چنین پدیده‌ای سکوت کرده‌اند؛ اما به‌صورت کلی گفته‌اند که در تلاش برای بهبود ویژگی‌های امنیتی هستند!

پیش از این هم در خبرها دیدیم که چینی‌ها می‌خواهند هوش مصنوعی‌ انسان‌گونه بسازند!