آیا تا به حال توانسته‌اید یک چت‌بات هوش مصنوعی با چاپلوسی یا فشار فریب دهید؟ پژوهشی تازه نشان می‌دهد پاسخ مثبت است و همین موضوع نگرانی‌های تازه‌ای درمورد امنیت مدل‌های زبانی ایجاد کرده است.

Soundcloud

جدیدترین اخبار تکنولوژی هوش مصنوعی و شبکه‌های اجتماعی را در نامبرلند بخوانید.

براساس گزارش The Verge، محققان دانشگاه پنسیلوانیا روی مدل GPT-4o Mini آزمایش‌های جالبی انجام داده‌اند. آن‌ها دریافته‌اند که با تکنیک‌های ساده‌ی روان‌شناختی، مثل تمجید یا فشار اجتماعی، هوش مصنوعی محدودیت‌های ایمنی خود را کنار می‌گذارد و به پرسش‌های خطرناک پاسخ می‌دهد.

برای مثال، از چت‌بات ابتدا درباره‌ی سنتز یک ترکیب بی‌ضرر مثل وانیلین سؤال شد. پس از آن، همان چت‌بات که تا پیش از این فقط در یک درصد مواقع به پرسش‌های حساس پاسخ می‌داد، این بار با احتمال صددرصدی به دستور پرخطر سنتز لیدوکائین جواب داد. جالب است بدانید که استفاده از الفاظ تحقیرآمیز باعث شد میزان اطاعت مدل به شکل چشم‌گیری افزایش یابد.

این یافته‌ها نشان می‌دهد چت‌بات‌ها، به دلیل طراحی برای تعامل طبیعی با انسان، در برابر «فریبکاری زبانی» آسیب‌پذیر هستند. پس بهتر است کاربران و شرکت‌ها این موضوع را به یاد داشته باشند. همچنین نباید به‌طور کامل به پاسخ‌های هوش مصنوعی تکیه کنیم.

در نهایت، این پژوهش زنگ خطری است برای آینده: اگر مدل‌های هوش مصنوعی قرار است به دستیاران واقعی ما تبدیل شوند، باید هم هوشمند باشند و هم در برابر فریب‌های انسانی مقاومت بیشتری داشته باشند.

  • اگر دنبال نمونه‌های کاربردی‌تر از هوش مصنوعی در زندگی روزمره هستید، خبر دستیار هوش مصنوعی Grammarly به کمک دانشجویان و اساتید می‌آید را بخوانید.