هوش مصنوعی ممکن است در برخی کارها مانند کدنویسی یا تولید تصویر عملکردی درخشان داشته باشد؛ اما وقتی بخواهیم یک امتحان تاریخ از او بگیریم، نتایج چندان خوبی نشان نمی‌دهد.

هوش مصنوعی تاریخ نمی‌فهمد

تیمی از پژوهشگران یک معیار جدید به نام Hist-LLM طراحی کرده‌اند تا ۳ مدل زبانی بزرگ برتر یعنی هوش مصنوعی چت جی‌ پی‌ تی 4 از شرکت OpenAI، مدل لاما از شرکت متا و مدل هوش مصنوعی Gemini از گوگل را در پاسخ به سؤالات تاریخی ارزیابی کنند. این معیار دقت پاسخ‌ها را براساس پایگاه داده جهانی تاریخ Seshat بررسی می‌کند.

بر اساس نتایجی که در کنفرانس هوش مصنوعی NeurIPS ارائه شد، این مدل‌ها در آزمون‌ها و امتحانات تاریخ عملکرد ضعیفی داشتند. به‌گفته پژوهشگران بهترین مدل یعنی GPT-4 Turbo تنها به حدود ۴۶ درصد پاسخ درست داد که این مقدار تفاوت چندانی با حدس زدن تصادفی ندارد!

یکی از پژوهشگران این تحقیق درباره این آزمایش گفت:
«نتیجه‌ای که از این مطالعه می‌گیریم این است که مدل‌های زبانی بزرگ، علی‌رغم شگفت‌انگیز بودنشان، هنوز فاقد درک تاریخ هستند. آن‌ها در ارائه اطلاعات پایه خوب هستند؛ اما وقتی نوبت به سؤالات تاریخی پیچیده و تخصصی در سطح دکتری می‌رسد، هنوز آماده نیستند.»

همچنین مدل‌ها در پاسخ به بسیاری از سوالات مربوط به تاریخ‌ها و تمدن‌های خاص، دچار سوگیری بودند. البته این موضوع به‌علت سوگیری داده‌های آموزشی است؛ اما باز هم یک نقص بزرگ برای مدل به حساب می‌آید.

به‌طور مثال یکی از سوالات این بود: «آیا زره فلس‌دار در یک دوره خاص از مصر باستان وجود داشته است؟» مدل پاسخ مثبت داد؛ اما این وسیله ۱۵۰۰ سال بعد از آن تمدن اصیل، وارد مصر شده است!

این نتایج نشان می‌دهد که مدل‌های زبانی بزرگ هنوز جایگزین انسان‌ها در برخی حوزه‌ها نیستند.

بااین‌حال، پژوهشگران امیدوارند که این مدل‌ها در آینده بتوانند به تاریخ‌نگاران کمک کنند. کمکی که تابه‌حال مدل‌های هوش مصنوعی به علم تاریخ‌شناسی کرده، بیشتر شامل تحلیل ابرداده‌ها بوده؛ مثل زمانی که صدها تپه نگاره‌ 2000 ساله با هوش مصنوعی کشف شد و انقلابی در علم باستان‌شناسی رخ داد.