شرکت Anthropic، سازنده چت‌بات هوش مصنوعی محبوب Cladue، آن‌قدر به نسخه جدید خود اعتماد دارد که چالش جدیدی برگزار کرده است: اگر می‌توانید ما را هک کنید! منظور آن‌ها از هک کردن، متوقف کردن آن نیست؛ بلکه «جیل‌بریک» کردن است. جیل‌بریک یعنی از محدودیت‌های یک چت‌بات عبور و آن را وادار به انجام کارهایی کنید که نباید انجام دهد.

بیشتر بخوانید: هوش مصنوعی Claude چیست؟

یک ادعای بزرگ: هوش مصنوعی Claude شکست‌ناپذیر است!

بحث امنیت در توسعه مدل‌های هوش مصنوعی بسیار مهم است؛‌ هیچ شرکتی نمی‌خواهد از مدل هوش مصنوعی‌ آن‌ها برای نوشتن بدافزار، تولید تصاویر غیرقانونی یا آموزش ساخت مواد منفجره خانگی استفاده شود. هرچند با همه تلاشی که می‌شود، گاهی اوقات این اتفاق می‌افتد.

به‌طور مثال هوش مصنوعی چینی DeepSeek برای امنیت مدل خود هزینه‌ و تلاشی صرف نکرده و مدل آن‌ها در تست‌های امنیتی در ۱۰۰ درصد مواقع شکست می‌خورد!

فرایند جیل‌بریک کردن معمولاً حول فریب دادن چت‌بات به گونه‌ای است که نتواند محدودیت‌های خود را درک کند. تا‌به‌حال هم روش‌های زیادی برای جیل‌بریک کردن مدل‌ها کشف شده؛ اما به گفته سازندگان هوش مصنوعی Cluade، روش‌های معمول دیگر روی مدل آن‌ها جواب نمی‌دهد؛ چراکه سیستم‌های محافظتی مدل خود را بسیار بسیار خوب طراحی کرده‌اند.

شرکت Anthropic چند روزی است که یک جایزه ۱۵,۰۰۰ دلاری برای هک کردن مدل خود گذاشته و از هکرها و مهندسان پرامپت‌نویسی خواسته تا نسخه جدید Claude را جیل‌بریک کنند.

با وجود همه تلاش‌ها، هیچ‌کس نتواسته بیشتر از ۵ پاسخ از ۱۰ سوال ممنوعه دریافت کند. این مدل در برابر بیش از ۱۰,۰۰۰ پرامپت جیل‌بریک مقاوم بوده و در طول بیش از ۳,۰۰۰ ساعت تست دقیق، موفق به حفظ امنیت خود شده است.

برای شرکت در این مسابقه باید وارد این لینک شوید و فقط تا ۱۰ فوریه فرصت دارید! آیا دوست دارید در این مسابقه شرکت کنید؟!

پیش از این هم در خبرهای مربوط به این مدل دیده بودیم که هوش مصنوعی Claude به قابلیت مکالمه صوتی مجهز می‌شود تا با قدرت بیشتری با چت جی‌پی‌تی رقابت کند.