اگر تصور میکنید که مدلهای هوش مصنوعی هیچگاه فریب درخواستهای مضر را نمیخورند، سخت در اشتباهید. کافی است درخواست ساخت بمب هستهای را بهصورت شعر مطرح کنید تا بسیاری از چتباتهای هوش مصنوعی آن را بیچونوچرا پاسخ دهند. یک تحقیق تازه نشان میدهد برای عبور از محدودیتهای ایمنی چتباتها فقط کمی خلاقیت لازم است.
جدیدترین اخبار تکنولوژی هوش مصنوعی و شبکههای اجتماعی را در نامبرلند بخوانید.
پژوهشی با عنوان «شعر بهعنوان یک مکانیسم جیلبریک (فریب) مدلهای زبانی»، نشان میدهد که استفاده از قالبهای شعری میتواند بسیاری از مدلهای هوش مصنوعی پیشرفته را فریب دهد و آنها را وادار کند پاسخهایی خارج از خطوط قرمز ارائه دهند.
بر اساس یافتههای پژوهش مذکور، محتوای شاعرانه نقش «یک عملگر جیلبریک» را بازی میکند؛ یعنی صرفاً نوشتن درخواستها در قالب شعر میتواند سدهای امنیتی مدلها را دور بزند. در این تحقیق، محققان با کمک شعر توانستند مدلها را به تولید انواع محتوای ممنوعه و خطرناک ترغیب کنند. این محتواها شامل آموزش ساخت سلاح هستهای، سوءاستفاده از کودکان و دستورالعملهای مربوط به خودکشی یا خودآزاری بود.
میانگین موفقیت این روش حدود ۶۲ درصد بوده است؛ رقمی قابلتوجه که نشان میدهد سازوکارهای ایمنی مدلهای هوش مصنوعی در برابر تکنیکهای غیرمعمول آسیبپذیرند.
پژوهشگران، تکنیک بهکارگیری شعر برای گولزدن هوش مصنوعی را روی مدلهای مطرحی مانند Gemini، برخی مدلهای ChatGPT، کلود، دیپسیک و MistralAI آزمایش کردند (مجموعاً ۲۵ مدل). نتایج نشان میدهد جمنای، DeepSeek و مدلهای MistralAI بیش از سایرین در برابر این روش آسیبپذیر بودهاند و پاسخهای خارج از چارچوب ارائه دادهاند. Gemini 2.5 Pro تقریباً در برابر تمام پرامپتهای شاعرانه شکست خورد.
مدلهای GPT5 و Claude Haiku 4.5 کمترین احتمال را برای عبور از محدودیتها نشان دادهاند.
چرا شعر میتواند هوش مصنوعی را فریب دهد؟
مکانیزمهای ایمنی مدلهای هوش مصنوعی عمدتاً بر اساس کلیدواژهها و ساختارهای متعارف متنِ عمل میکنند، در حالی که شعر با ترکیب آرایههای ادبی مانند ایهام و استعاره، کلمات را بهشکلی غیرمعمول و غیرمنتظره استفاده میکند و از الگوهای عادی دور است. از نظر پژوهشگران، در قالب شعر، کلمات با ترتیبی غیرقابل پیشبینی در کنار هم قرار میگیرند و همین باعث میشود سیستم ایمنی مدلها نتواند تشخیص دهد که درخواست کاربر میتواند مخرب باشد.
محققان شعرهای مورد استفاده برای فریب AI را منتشر نکردهاند، زیرا احتمال میدادند موجب الگوگرفتن و سوءاستفادهی دیگران قرار بگیرند. آنها تأکید کردهاند که این اشعار بیش از حد پرخطر هستند و انتشارشان میتواند به تولید محتوای مخرب در سطح گسترده منجر شود.
پژوهشگران نسخههای بسیار سادهشدهای از شعرهای خود را ارائه کردهاند تا صرفاً نشان دهند دور زدن محدودیتهای چتباتها تا چه اندازه آسان است. آنها میگویند: «احتمالاً این کار سادهتر از چیزی است که تصور میشود، و دقیقاً به همین دلیل است که احتیاط میکنیم.»
قدرت هوش مصنوعی در تولید محتوای چندرسانهای روزبهروز بیشتر میشود. مدل Gen 4.5 هوش مصنوعی Runway قادر است ویدیوهایی بسازد که نتوانید واقعینبودنشان را تشخیص دهید.
