متا چند روز پیش چند مدل هوش مصنوعی پرچمدار معرفی کرد و درباره عملکرد آنها ادعاهای بسیار بزرگی کرده است. یکی از مدلهایی که متا بهتازگی معرفی کرده، یعنی Maverick، در پلتفرم LM Arena رتبه دوم را کسب کرده است. در این پلتفرم، افراد واقعی خروجی مدلهای مختلف را مقایسه میکنند و گزینه بهتر را انتخاب مینمایند. مشکل اینجاست که به نظر میرسد نسخهای از Maverick که متا در LM Arena استفاده کرده، با نسخهای که در دسترس عموم توسعهدهندگان قرار دارد، تفاوت دارد!
چندین پژوهشگر حوزه هوش مصنوعی در پلتفرم X (توییتر سابق) به این موضوع اشاره کردهاند و میگویند مشکل زمانی پیش میآید که مدلی برای عملکرد بهتر در یک معیار مشخص تنظیم شده، اما آن نسخه منتشر نمیشود و در عوض نسخهای عمومیتر و سادهتر از همان مدل در اختیار توسعهدهندگان قرار میگیرد!
محققان معتقدند این رفتار از سوی متا، گمراهکننده و اغراقآمیز است.
این کار باعث میشود پیشبینی عملکرد واقعی مدل در شرایط مختلف دشوار شود. در حالت ایدهآل، معیارها (با وجود تمام ضعفهایشان) باید تصویری واقعی از نقاط قوت و ضعف یک مدل در مجموعهای متنوع از وظایف ارائه دهند.
در واقع، پژوهشگران در پلتفرم X تفاوتهای آشکاری میان نسخه قابل دانلود Maverick و نسخهای که در LM Arena استفاده شده، مشاهده کردهاند. به عنوان مثال، نسخهی LM Arena از ایموجیهای زیادی استفاده میکند و پاسخهایی بسیار طولانی میدهد.