چه اتفاقی می‌افتد که چت‌بات‌های هوش مصنوعی مطیع می‌شوند؟

آیا تا به حال توانسته‌اید یک چت‌بات هوش مصنوعی با چاپلوسی یا فشار فریب دهید؟ پژوهشی تازه نشان می‌دهد پاسخ مثبت است و همین موضوع نگرانی‌های تازه‌ای درمورد امنیت مدل‌های زبانی ایجاد کرده است.

جدیدترین اخبار تکنولوژی هوش مصنوعی و شبکه‌های اجتماعی را در نامبرلند بخوانید.

براساس گزارش The Verge، محققان دانشگاه پنسیلوانیا روی مدل GPT-4o Mini آزمایش‌های جالبی انجام داده‌اند. آن‌ها دریافته‌اند که با تکنیک‌های ساده‌ی روان‌شناختی، مثل تمجید یا فشار اجتماعی، هوش مصنوعی محدودیت‌های ایمنی خود را کنار می‌گذارد و به پرسش‌های خطرناک پاسخ می‌دهد.

برای مثال، از چت‌بات ابتدا درباره‌ی سنتز یک ترکیب بی‌ضرر مثل وانیلین سؤال شد. پس از آن، همان چت‌بات که تا پیش از این فقط در یک درصد مواقع به پرسش‌های حساس پاسخ می‌داد، این بار با احتمال صددرصدی به دستور پرخطر سنتز لیدوکائین جواب داد. جالب است بدانید که استفاده از الفاظ تحقیرآمیز باعث شد میزان اطاعت مدل به شکل چشم‌گیری افزایش یابد.

این یافته‌ها نشان می‌دهد چت‌بات‌ها، به دلیل طراحی برای تعامل طبیعی با انسان، در برابر «فریبکاری زبانی» آسیب‌پذیر هستند. پس بهتر است کاربران و شرکت‌ها این موضوع را به یاد داشته باشند. همچنین نباید به‌طور کامل به پاسخ‌های هوش مصنوعی تکیه کنیم.

در نهایت، این پژوهش زنگ خطری است برای آینده: اگر مدل‌های هوش مصنوعی قرار است به دستیاران واقعی ما تبدیل شوند، باید هم هوشمند باشند و هم در برابر فریب‌های انسانی مقاومت بیشتری داشته باشند.

اگر دنبال نمونه‌های کاربردی‌تر از هوش مصنوعی در زندگی روزمره هستید، خبر دستیار هوش مصنوعی Grammarly به کمک دانشجویان و اساتید می‌آید را بخوانید.

آسیب‌پذیری چت‌بات‌های هوش مصنوعی در برابر چاپلوسی چگونه رخ می‌دهد؟

فاطمه شکری

دیدگاهتان را بنویسید لغو پاسخ

اشتراک گذاری مطلب:

فاطمه شکری

تغییرات فوری متا برای ایمنی نوجوانان در چت‌بات‌های AI؛ آیا این محدودیت‌ها دائمی هستند؟

هوش مصنوعی نانو بنانا همه‌ی رقیب‌ها را کنار زد؛ رقابت گوگل و ChatGPT بر سر تصویر واقعی (اکنون در X هم فعال است)

دیدگاهتان را بنویسید لغو پاسخ