آیا تا به حال توانستهاید یک چتبات هوش مصنوعی با چاپلوسی یا فشار فریب دهید؟ پژوهشی تازه نشان میدهد پاسخ مثبت است و همین موضوع نگرانیهای تازهای درمورد امنیت مدلهای زبانی ایجاد کرده است.
جدیدترین اخبار تکنولوژی هوش مصنوعی و شبکههای اجتماعی را در نامبرلند بخوانید.
براساس گزارش The Verge، محققان دانشگاه پنسیلوانیا روی مدل GPT-4o Mini آزمایشهای جالبی انجام دادهاند. آنها دریافتهاند که با تکنیکهای سادهی روانشناختی، مثل تمجید یا فشار اجتماعی، هوش مصنوعی محدودیتهای ایمنی خود را کنار میگذارد و به پرسشهای خطرناک پاسخ میدهد.
برای مثال، از چتبات ابتدا دربارهی سنتز یک ترکیب بیضرر مثل وانیلین سؤال شد. پس از آن، همان چتبات که تا پیش از این فقط در یک درصد مواقع به پرسشهای حساس پاسخ میداد، این بار با احتمال صددرصدی به دستور پرخطر سنتز لیدوکائین جواب داد. جالب است بدانید که استفاده از الفاظ تحقیرآمیز باعث شد میزان اطاعت مدل به شکل چشمگیری افزایش یابد.
این یافتهها نشان میدهد چتباتها، به دلیل طراحی برای تعامل طبیعی با انسان، در برابر «فریبکاری زبانی» آسیبپذیر هستند. پس بهتر است کاربران و شرکتها این موضوع را به یاد داشته باشند. همچنین نباید بهطور کامل به پاسخهای هوش مصنوعی تکیه کنیم.
در نهایت، این پژوهش زنگ خطری است برای آینده: اگر مدلهای هوش مصنوعی قرار است به دستیاران واقعی ما تبدیل شوند، باید هم هوشمند باشند و هم در برابر فریبهای انسانی مقاومت بیشتری داشته باشند.
- اگر دنبال نمونههای کاربردیتر از هوش مصنوعی در زندگی روزمره هستید، خبر دستیار هوش مصنوعی Grammarly به کمک دانشجویان و اساتید میآید را بخوانید.
