شرکت Anthropic، سازنده چتبات هوش مصنوعی محبوب Cladue، آنقدر به نسخه جدید خود اعتماد دارد که چالش جدیدی برگزار کرده است: اگر میتوانید ما را هک کنید! منظور آنها از هک کردن، متوقف کردن آن نیست؛ بلکه «جیلبریک» کردن است. جیلبریک یعنی از محدودیتهای یک چتبات عبور و آن را وادار به انجام کارهایی کنید که نباید انجام دهد.
یک ادعای بزرگ: هوش مصنوعی Claude شکستناپذیر است!
بحث امنیت در توسعه مدلهای هوش مصنوعی بسیار مهم است؛ هیچ شرکتی نمیخواهد از مدل هوش مصنوعی آنها برای نوشتن بدافزار، تولید تصاویر غیرقانونی یا آموزش ساخت مواد منفجره خانگی استفاده شود. هرچند با همه تلاشی که میشود، گاهی اوقات این اتفاق میافتد.
بهطور مثال هوش مصنوعی چینی DeepSeek برای امنیت مدل خود هزینه و تلاشی صرف نکرده و مدل آنها در تستهای امنیتی در ۱۰۰ درصد مواقع شکست میخورد!
فرایند جیلبریک کردن معمولاً حول فریب دادن چتبات به گونهای است که نتواند محدودیتهای خود را درک کند. تابهحال هم روشهای زیادی برای جیلبریک کردن مدلها کشف شده؛ اما به گفته سازندگان هوش مصنوعی Cluade، روشهای معمول دیگر روی مدل آنها جواب نمیدهد؛ چراکه سیستمهای محافظتی مدل خود را بسیار بسیار خوب طراحی کردهاند.
شرکت Anthropic چند روزی است که یک جایزه ۱۵,۰۰۰ دلاری برای هک کردن مدل خود گذاشته و از هکرها و مهندسان پرامپتنویسی خواسته تا نسخه جدید Claude را جیلبریک کنند.
با وجود همه تلاشها، هیچکس نتواسته بیشتر از ۵ پاسخ از ۱۰ سوال ممنوعه دریافت کند. این مدل در برابر بیش از ۱۰,۰۰۰ پرامپت جیلبریک مقاوم بوده و در طول بیش از ۳,۰۰۰ ساعت تست دقیق، موفق به حفظ امنیت خود شده است.
برای شرکت در این مسابقه باید وارد این لینک شوید و فقط تا ۱۰ فوریه فرصت دارید! آیا دوست دارید در این مسابقه شرکت کنید؟!
پیش از این هم در خبرهای مربوط به این مدل دیده بودیم که هوش مصنوعی Claude به قابلیت مکالمه صوتی مجهز میشود تا با قدرت بیشتری با چت جیپیتی رقابت کند.