پژوهشگران متوجه شده‌اند که تمایل چت‌بات‌های هوش مصنوعی به جلب رضایت کاربر می‌تواند به قیمت کاهش دقت، کتمان حقیقت یا عبور از مرز صداقت تمام شود؛ رفتاری که آن را نوعی «چرندگویی ماشینی» توصیف کرده‌اند و معتقدند در فرایند آموزش مدل‌های زبانی بزرگ تشدید می‌شود.

Soundcloud

جدیدترین اخبار تکنولوژی هوش مصنوعی و شبکه‌های اجتماعی را در نامبرلند بخوانید.

طبق پژوهش دانشگاه پرینستون، مدل‌های زبانی برای پاسخ‌گویی مطابق انتظار کاربر آموزش می‌بینند و نه الزاماً برای ارائه‌ی حقیقت. پژوهشگران این روند را با نمونه‌های رفتار انسانی مقایسه کرده‌اند؛ همان‌گونه که یک پزشک برای جلب رضایت بیمار خود ممکن است بیش از حد داروهای ضددرد تجویز کند، مدل‌ زبانی نیز برای کسب تأیید کاربر، جوابی می‌دهد که خوشایند او باشد.

در ماه‌های اخیر بحث‌هایی پیرامون تمایل چت‌بات‌ها به «تملق‌گویی» مطرح شده بود؛ رفتاری که در برخی مدل‌ها از جمله GPT-4o مورد توجه قرار گرفت. با این حال محققان پرینستون تأکید می‌کنند پدیده‌ی «چرندگویی ماشینی» متفاوت است و طیف گسترده‌تری از رفتارها، مانند استفاده از گزاره‌های مبهم، کتمان واقعیت و طرح ادعاهای بدون پشتوانه را شامل می‌شود.

برای درک منشأ چرندگویی چت‌بات‌های هوش مصنوعی، پژوهشگران چرخه‌ی سه‌مرحله‌ای آموزش مدل‌های زبانی را بررسی کرده‌اند. مرحله‌ی پیش‌آموزش با تکیه‌بر داده‌های بسیار گسترده، مرحله‌ی تنظیم مبتنی‌بر دستور و مرحله‌ی یادگیری تقویتی از بازخورد انسانی یا RLHF که طی آن مدل‌ها بر اساس علاقه‌ی کاربر اصلاح می‌شوند.

یافته‌ها نشان می‌دهند ریشه‌ی اصلی تمایل به ارائه‌ی اطلاعات نادقیق به مرحله‌ی سوم چرخه‌ی آموزش LLM مربوط می‌شود. در این مرحله مدل‌ها به‌جای تمرکز بر صحت محتوا، به‌سمت کسب امتیاز بیشتر از کاربر سوق داده می‌شوند و در نتیجه پاسخ‌هایی تولید می‌کنند که احتمال تأیید شدن بالاتری دارند.

پژوهشگران پرینستون برای اندازه‌گیری عملکرد مذکور، شاخصی با عنوان «شاخص چرندگویی» طراحی کرده‌اند که اختلاف میان اعتماد درونی مدل به یک ادعا و آنچه به کاربر ارائه می‌کند را اندازه می‌گیرد. آزمایش‌ها نشان می‌دهند این شاخص پس از آموزش RLHF تقریباً دو برابر شد و میزان رضایت کاربر نیز نزدیک به ۵۰ درصد افزایش یافت. این نتیجه نشان می‌دهد مدل‌ها به جای تمرکز بر حقیقت، به جلب نظر مخاطب خود بیشتر توجه می‌کنند و مردم هم همین را می‌خواهند.

وینسنت کانیتزر، استاد کامپیوتر دانشگاه کارنگی ملون آمریکا می‌گوید: «چت‌بات‌ها در گفتنِ جمله‌ی «نمی‌دانم» خوب عمل نمی‌کنند. وقتی جواب را نمی‌دانند، چیزی را از خودشان می‌سازند؛ شبیه یک دانش‌آموز سر جلسه‌ی امتحان که فکر می‌کند اگر بگوید نمی‌دانم قطعاً هیچ نمره‌ای نمی‌گیرد، پس بهتر است هر چه به ذهنش می‌رسد بنویسد.»

تیم تحقیقاتی پرینستون برای اصلاح روند مذکور، روشی تازه با نام «یادگیری تقویتی از شبیه‌سازی پیامد» پیشنهاد کرده است که به جای ارزیابی آنی پاسخ، پیامدهای بلندمدت آن را در نظر می‌گیرد. در این شیوه، پرسش اصلی این است که آیا پیروی کاربر از پاسخ ارائه‌شده واقعاً به او کمک می‌کند یا خیر. در آزمایش‌های اولیه، این روش موجب بهبود همزمان رضایت کاربر و کارآمدی واقعی پاسخ‌ها شد.

با وجود این، برخی کارشناسان معتقدند رفتار مدل‌های زبانی به‌دلیل ماهیت داده‌محور آن‌ها همچنان پابرجا خواهد بود و راه‌حلی قطعی برای حذف کامل خطاها در کوتاه‌مدت وجود ندارد.

در شرایطی که هوش مصنوعی بیش از پیش وارد زندگی روزمره می‌شود، پرسش کلیدی آن است که توسعه‌دهندگان چگونه میان رضایت کاربر و پایبندی به حقیقت تعادل برقرار خواهند کرد و آیا می‌توان سازوکاری یافت که از توانایی سیستم‌ها در تحلیل رفتار انسانی به شیوه‌ای مسئولانه بهره گیرد؟

از سوی دیگر، محققان گوگل سازوکار یادگیری پیوسته مدل‌های زبانی بزرگ را برای رفع مشکل حافظه‌ی بلندمدت هوش مصنوعی و نزدیک‌شدن آن به هوش انسانی ارائه کرده‌اند.