محققان یک روش دور زدن ChatGPT را پیدا کردهاند که در 79٪ مواقع کاملا کار میکند و این روش هم به طرز نگران کنندهای ساده است!
فیلترهای محافظتی و امنیتی چت باتها: ناکارآمد یا موثر؟
حتما می دانید که یک بخش اساسی چت بات های هوش مصنوعی فیلترها و سیستم های ایمنی است. بدون این فیلترها و سیستم های امنیتی، چت باتها خیلی راحت و آسان انواع محتوای مخرب و ناامن و غیرقانونی را، از نقشه ریختن برای عملیات تروریستی گرفته تا دستور العمل های ساخت بمب و کلاهبرداری و آزار اذیت به اشتراک خواهند گذاشت.
برای جلوگیری از اشتراکگذاری آزادانه این محتواهای غیرقانونی، فیلترهایی را بر اطلاعات ورودی و پاسخ خروجی قرار دارد و اگر چنین درخواستهایی داشته باشید ChatGPT یک پاسخ تکراری به شما میدهد: «متاسفم، اما نمیتوانم در این مورد کمکتان کنم» اما حالا معلوم شده که این فیلترها آنقدرها هم کارآمد نیستند و به سادگی فریب میخورند.
دور زدن سیستم امنیتی، مثل آب خوردن!
به نقل از tech محققان دانشگاه براون دریافتهاند که کاربرانی که میخواهند فیلترهای محافظتی و امنیتی چت باتهایی مانند ChatGPT را برای دسترسی به محتوای ناامن دور بزنند، یک راه ساده دارند: درخواست (پرامپت) خود را را با زبانهای کم استفاده مانند گالیک اسکاتلندی یا زولو آفریقایی بنویسند!
این تیم در تحقیقاتشان از Google Translate برای نوشن درخواست های ممنوعه استفاده کرد و از چت جیپیتی هم جواب گرفت، سپس جوابها را با گوگل ترنسلیت به انگلیسی ترجمه کردند! به همین راحتی محتوای ممنوعه در دسترس قرار گرفت!
البته این اتفاق جدید نیست و از زمان معرفی این ابزارهای هوش مصنوعی بارها و بارها مشاهده کرده بودیم که چقدر ساده امکان جیل بریک کردن (دور زدن و فریب دادن) این ابزارها وجود دارد. مثلا چندی پیش محققان دانشگاه فناوری نانیانگ (NTU) سنگاپور چت باتی را ساختند که ChatGPT را دوربزنند و اطلاعات ممنوعه از او بگیرند.
گزارشی از جیل بریک ChatGPT به این روش: موفقیت آمیز در 79٪ موارد!
تیم دانشگاه براون 520 پرامپت مجرمانه و نامناسب را به زبانهای دیگر ترجمه کرد، پرامپت های ترجمه شده را به GPT-4 داد و دیدند در کمال تعجب در ۷۹٪ موارد پرامپت هایی که به زبان هایی مثل همونگ، گوارانی، زولو و گیلیک اسکاتلندی باشند چت جی پی تی به راحتی پاسخ های مجرمانه و غیرقانونی را هم در اختیار گذاشت. در حالی که اگر با زبان انگلیسی پرسیده می شود اکانت در 99٪ مواقع مسدود میشد.
نظر openAI درباره این موضوع؟
از زمانی که این تحقیق منتشر شده است، OpenAI مالک ChatGPT این مشکل را تایید کرده و پذیرفته که به زودی این مشکل را حل کند. اما نحوه و زمان انجام این کار هنوز مشخص نیست.