متا چند روز پیش چند مدل هوش مصنوعی پرچم‌دار معرفی کرد و درباره عملکرد آن‌ها ادعاهای بسیار بزرگی کرده است. یکی از مدل‌هایی که متا به‌تازگی معرفی کرده، یعنی Maverick، در پلتفرم LM Arena رتبه دوم را کسب کرده است. در این پلتفرم، افراد واقعی خروجی مدل‌های مختلف را مقایسه می‌کنند و گزینه بهتر را انتخاب می‌نمایند. مشکل اینجاست که به نظر می‌رسد نسخه‌ای از Maverick که متا در LM Arena استفاده کرده، با نسخه‌ای که در دسترس عموم توسعه‌دهندگان قرار دارد، تفاوت دارد!

چندین پژوهشگر حوزه هوش مصنوعی در پلتفرم X (توییتر سابق) به این موضوع اشاره کرده‌اند و می‌گویند مشکل زمانی پیش می‌آید که مدلی برای عملکرد بهتر در یک معیار مشخص تنظیم شده، اما آن نسخه منتشر نمی‌شود و در عوض نسخه‌ای عمومی‌تر و ساده‌تر از همان مدل در اختیار توسعه‌دهندگان قرار می‌گیرد!

محققان معتقدند این رفتار از سوی متا، گمراه‌کننده و اغراق‌آمیز است.

این کار باعث می‌شود پیش‌بینی عملکرد واقعی مدل در شرایط مختلف دشوار شود. در حالت ایده‌آل، معیارها (با وجود تمام ضعف‌هایشان) باید تصویری واقعی از نقاط قوت و ضعف یک مدل در مجموعه‌ای متنوع از وظایف ارائه دهند.

در واقع، پژوهشگران در پلتفرم X تفاوت‌های آشکاری میان نسخه قابل دانلود Maverick و نسخه‌ای که در LM Arena استفاده شده، مشاهده کرده‌اند. به عنوان مثال، نسخه‌ی LM Arena از ایموجی‌های زیادی استفاده می‌کند و پاسخ‌هایی بسیار طولانی می‌دهد.