پژوهشگران متوجه شدهاند که تمایل چتباتهای هوش مصنوعی به جلب رضایت کاربر میتواند به قیمت کاهش دقت، کتمان حقیقت یا عبور از مرز صداقت تمام شود؛ رفتاری که آن را نوعی «چرندگویی ماشینی» توصیف کردهاند و معتقدند در فرایند آموزش مدلهای زبانی بزرگ تشدید میشود.
جدیدترین اخبار تکنولوژی هوش مصنوعی و شبکههای اجتماعی را در نامبرلند بخوانید.
طبق پژوهش دانشگاه پرینستون، مدلهای زبانی برای پاسخگویی مطابق انتظار کاربر آموزش میبینند و نه الزاماً برای ارائهی حقیقت. پژوهشگران این روند را با نمونههای رفتار انسانی مقایسه کردهاند؛ همانگونه که یک پزشک برای جلب رضایت بیمار خود ممکن است بیش از حد داروهای ضددرد تجویز کند، مدل زبانی نیز برای کسب تأیید کاربر، جوابی میدهد که خوشایند او باشد.
در ماههای اخیر بحثهایی پیرامون تمایل چتباتها به «تملقگویی» مطرح شده بود؛ رفتاری که در برخی مدلها از جمله GPT-4o مورد توجه قرار گرفت. با این حال محققان پرینستون تأکید میکنند پدیدهی «چرندگویی ماشینی» متفاوت است و طیف گستردهتری از رفتارها، مانند استفاده از گزارههای مبهم، کتمان واقعیت و طرح ادعاهای بدون پشتوانه را شامل میشود.
برای درک منشأ چرندگویی چتباتهای هوش مصنوعی، پژوهشگران چرخهی سهمرحلهای آموزش مدلهای زبانی را بررسی کردهاند. مرحلهی پیشآموزش با تکیهبر دادههای بسیار گسترده، مرحلهی تنظیم مبتنیبر دستور و مرحلهی یادگیری تقویتی از بازخورد انسانی یا RLHF که طی آن مدلها بر اساس علاقهی کاربر اصلاح میشوند.
یافتهها نشان میدهند ریشهی اصلی تمایل به ارائهی اطلاعات نادقیق به مرحلهی سوم چرخهی آموزش LLM مربوط میشود. در این مرحله مدلها بهجای تمرکز بر صحت محتوا، بهسمت کسب امتیاز بیشتر از کاربر سوق داده میشوند و در نتیجه پاسخهایی تولید میکنند که احتمال تأیید شدن بالاتری دارند.
پژوهشگران پرینستون برای اندازهگیری عملکرد مذکور، شاخصی با عنوان «شاخص چرندگویی» طراحی کردهاند که اختلاف میان اعتماد درونی مدل به یک ادعا و آنچه به کاربر ارائه میکند را اندازه میگیرد. آزمایشها نشان میدهند این شاخص پس از آموزش RLHF تقریباً دو برابر شد و میزان رضایت کاربر نیز نزدیک به ۵۰ درصد افزایش یافت. این نتیجه نشان میدهد مدلها به جای تمرکز بر حقیقت، به جلب نظر مخاطب خود بیشتر توجه میکنند و مردم هم همین را میخواهند.
وینسنت کانیتزر، استاد کامپیوتر دانشگاه کارنگی ملون آمریکا میگوید: «چتباتها در گفتنِ جملهی «نمیدانم» خوب عمل نمیکنند. وقتی جواب را نمیدانند، چیزی را از خودشان میسازند؛ شبیه یک دانشآموز سر جلسهی امتحان که فکر میکند اگر بگوید نمیدانم قطعاً هیچ نمرهای نمیگیرد، پس بهتر است هر چه به ذهنش میرسد بنویسد.»
تیم تحقیقاتی پرینستون برای اصلاح روند مذکور، روشی تازه با نام «یادگیری تقویتی از شبیهسازی پیامد» پیشنهاد کرده است که به جای ارزیابی آنی پاسخ، پیامدهای بلندمدت آن را در نظر میگیرد. در این شیوه، پرسش اصلی این است که آیا پیروی کاربر از پاسخ ارائهشده واقعاً به او کمک میکند یا خیر. در آزمایشهای اولیه، این روش موجب بهبود همزمان رضایت کاربر و کارآمدی واقعی پاسخها شد.
با وجود این، برخی کارشناسان معتقدند رفتار مدلهای زبانی بهدلیل ماهیت دادهمحور آنها همچنان پابرجا خواهد بود و راهحلی قطعی برای حذف کامل خطاها در کوتاهمدت وجود ندارد.
در شرایطی که هوش مصنوعی بیش از پیش وارد زندگی روزمره میشود، پرسش کلیدی آن است که توسعهدهندگان چگونه میان رضایت کاربر و پایبندی به حقیقت تعادل برقرار خواهند کرد و آیا میتوان سازوکاری یافت که از توانایی سیستمها در تحلیل رفتار انسانی به شیوهای مسئولانه بهره گیرد؟
از سوی دیگر، محققان گوگل سازوکار یادگیری پیوسته مدلهای زبانی بزرگ را برای رفع مشکل حافظهی بلندمدت هوش مصنوعی و نزدیکشدن آن به هوش انسانی ارائه کردهاند.
