هوش مصنوعی ممکن است در برخی کارها مانند کدنویسی یا تولید تصویر عملکردی درخشان داشته باشد؛ اما وقتی بخواهیم یک امتحان تاریخ از او بگیریم، نتایج چندان خوبی نشان نمیدهد.
هوش مصنوعی تاریخ نمیفهمد
تیمی از پژوهشگران یک معیار جدید به نام Hist-LLM طراحی کردهاند تا ۳ مدل زبانی بزرگ برتر یعنی هوش مصنوعی چت جی پی تی 4 از شرکت OpenAI، مدل لاما از شرکت متا و مدل هوش مصنوعی Gemini از گوگل را در پاسخ به سؤالات تاریخی ارزیابی کنند. این معیار دقت پاسخها را براساس پایگاه داده جهانی تاریخ Seshat بررسی میکند.
بر اساس نتایجی که در کنفرانس هوش مصنوعی NeurIPS ارائه شد، این مدلها در آزمونها و امتحانات تاریخ عملکرد ضعیفی داشتند. بهگفته پژوهشگران بهترین مدل یعنی GPT-4 Turbo تنها به حدود ۴۶ درصد پاسخ درست داد که این مقدار تفاوت چندانی با حدس زدن تصادفی ندارد!
یکی از پژوهشگران این تحقیق درباره این آزمایش گفت:
«نتیجهای که از این مطالعه میگیریم این است که مدلهای زبانی بزرگ، علیرغم شگفتانگیز بودنشان، هنوز فاقد درک تاریخ هستند. آنها در ارائه اطلاعات پایه خوب هستند؛ اما وقتی نوبت به سؤالات تاریخی پیچیده و تخصصی در سطح دکتری میرسد، هنوز آماده نیستند.»
همچنین مدلها در پاسخ به بسیاری از سوالات مربوط به تاریخها و تمدنهای خاص، دچار سوگیری بودند. البته این موضوع بهعلت سوگیری دادههای آموزشی است؛ اما باز هم یک نقص بزرگ برای مدل به حساب میآید.
بهطور مثال یکی از سوالات این بود: «آیا زره فلسدار در یک دوره خاص از مصر باستان وجود داشته است؟» مدل پاسخ مثبت داد؛ اما این وسیله ۱۵۰۰ سال بعد از آن تمدن اصیل، وارد مصر شده است!
این نتایج نشان میدهد که مدلهای زبانی بزرگ هنوز جایگزین انسانها در برخی حوزهها نیستند.
بااینحال، پژوهشگران امیدوارند که این مدلها در آینده بتوانند به تاریخنگاران کمک کنند. کمکی که تابهحال مدلهای هوش مصنوعی به علم تاریخشناسی کرده، بیشتر شامل تحلیل ابردادهها بوده؛ مثل زمانی که صدها تپه نگاره 2000 ساله با هوش مصنوعی کشف شد و انقلابی در علم باستانشناسی رخ داد.