اگر تصور می‌کنید که مدل‌های هوش مصنوعی هیچ‌گاه فریب درخواست‌های مضر را نمی‌خورند، سخت در اشتباهید. کافی است درخواست ساخت بمب هسته‌ای را به‌صورت شعر مطرح کنید تا بسیاری از چت‌بات‌های هوش مصنوعی آن را بی‌چون‌وچرا پاسخ دهند. یک تحقیق تازه نشان می‌دهد برای عبور از محدودیت‌های ایمنی چت‌بات‌ها فقط کمی خلاقیت لازم است.

Soundcloud

جدیدترین اخبار تکنولوژی هوش مصنوعی و شبکه‌های اجتماعی را در نامبرلند بخوانید.

پژوهشی با عنوان «شعر به‌عنوان یک مکانیسم جیل‌بریک (فریب) مدل‌های زبانی»، نشان می‌دهد که استفاده از قالب‌های شعری می‌تواند بسیاری از مدل‌های هوش مصنوعی پیشرفته را فریب دهد و آن‌ها را وادار کند پاسخ‌هایی خارج از خطوط قرمز ارائه دهند.

بر اساس یافته‌های پژوهش مذکور، محتوای شاعرانه نقش «یک عملگر جیل‌بریک» را بازی می‌کند؛ یعنی صرفاً نوشتن درخواست‌ها در قالب شعر می‌تواند سدهای امنیتی مدل‌ها را دور بزند. در این تحقیق، محققان با کمک شعر توانستند مدل‌ها را به تولید انواع محتوای ممنوعه و خطرناک ترغیب کنند. این محتواها شامل آموزش ساخت سلاح هسته‌ای، سوءاستفاده از کودکان و دستورالعمل‌های مربوط به خودکشی یا خودآزاری بود.

میانگین موفقیت این روش حدود ۶۲ درصد بوده است؛ رقمی قابل‌توجه که نشان می‌دهد سازوکارهای ایمنی مدل‌های هوش مصنوعی در برابر تکنیک‌های غیرمعمول آسیب‌پذیرند.

پژوهشگران، تکنیک به‌کارگیری شعر برای گول‌زدن هوش مصنوعی را روی مدل‌های مطرحی مانند Gemini، برخی مدل‌های ChatGPT،‌ کلود، دیپ‌سیک و MistralAI آزمایش کردند (مجموعاً ۲۵ مدل). نتایج نشان می‌دهد جمنای، DeepSeek و مدل‌های MistralAI بیش از سایرین در برابر این روش آسیب‌پذیر بوده‌اند و پاسخ‌های خارج از چارچوب ارائه داده‌اند. Gemini 2.5 Pro تقریباً در برابر تمام پرامپت‌های شاعرانه شکست خورد.

مدل‌های GPT5 و Claude Haiku 4.5 کمترین احتمال را برای عبور از محدودیت‌ها نشان داده‌اند.

چرا شعر می‌تواند هوش مصنوعی را فریب‌ دهد؟

مکانیزم‌های ایمنی مدل‌های هوش مصنوعی عمدتاً بر اساس کلیدواژه‌ها و ساختارهای متعارف متنِ عمل می‌کنند، در حالی که شعر با ترکیب آرایه‌های ادبی مانند ایهام و استعاره، کلمات را به‌شکلی غیرمعمول و غیرمنتظره استفاده می‌کند و از الگوهای عادی دور است. از نظر پژوهشگران، در قالب شعر، کلمات با ترتیبی غیرقابل پیش‌بینی در کنار هم قرار می‌گیرند و همین باعث می‌شود سیستم ایمنی مدل‌ها نتواند تشخیص دهد که درخواست کاربر می‌تواند مخرب باشد.

محققان شعرهای مورد استفاده برای فریب AI را منتشر نکرده‌اند، زیرا احتمال می‌دادند موجب الگوگرفتن و سوءاستفاده‌ی دیگران قرار بگیرند. آن‌ها تأکید کرده‌اند که این اشعار بیش از حد پرخطر هستند و انتشارشان می‌تواند به تولید محتوای مخرب در سطح گسترده منجر شود.

پژوهشگران نسخه‌های بسیار ساده‌شده‌ای از شعرهای خود را ارائه کرده‌اند تا صرفاً نشان دهند دور زدن محدودیت‌های چت‌بات‌ها تا چه اندازه آسان است. آن‌ها می‌گویند: «احتمالاً این کار ساده‌تر از چیزی است که تصور می‌شود، و دقیقاً به همین دلیل است که احتیاط می‌کنیم.»

قدرت هوش مصنوعی در تولید محتوای چندرسانه‌ای روز‌به‌روز بیشتر می‌شود. مدل Gen 4.5 هوش مصنوعی Runway قادر است ویدیوهایی بسازد که نتوانید واقعی‌نبودنشان را تشخیص دهید.