شرکت متا دیروز (۵ آوریل) مجموعه‌ای جدید از مدل‌های هوش مصنوعی خود با نام هوش مصنوعی Llama 4 را منتشر کرد. شما می‌توانید از این مدل‌ها در واتس‌اپ، مسنجر و اینستاگرام استفاده کنید. در این خبر نامبرلند به‌طور مفصل درباره این مدل‌ها می‌خوانیم.

مارک زاکربرگ

درباره مدل‌های هوش مصنوعی Llama 4

در این معرفی، در مجموع چهار مدل جدید به دنیا معرفی شده‌اند: Llama 4 Scout، Llama 4 Maverick و Llama 4 Behemoth. طبق گفته متا، تمام این مدل‌ها با «حجم عظیمی از داده‌های بدون برچسب متنی، تصویری و ویدیویی» آموزش دیده‌اند تا به درک بصری گسترده‌ای دست پیدا کنند.

به گزارش Techchrunch، موفقیت چینی‌ها در هوش مصنوعی DeepSeek باعث شد تیم هوش مصنوعی متا با سرعت بیشتری به توسعه خود بپردازد که عقب نیفتد. گفته می‌شود متا اتاق‌های بحران تشکیل داده تا بفهمد DeepSeek چطور توانسته هزینه‌های آموزش و اجرای مدل‌هایی مانند R1 و V3 را تا این حد پایین بیاورد.

مدل‌های Scout و Maverick هم‌اکنون به‌صورت متن‌باز از طریق سایت Llama.com و پلتفرم‌هایی مانند Hugging Face در دسترس توسعه‌دهندگان قرار گرفته‌اند؛ اما مدل Behemoth هنوز در حال آموزش است. متا همچنین اعلام کرده که دستیار هوش مصنوعی خود، Meta AI، در اپلیکیشن‌هایی مانند واتساپ، مسنجر و اینستاگرام در ۴۰ کشور به Llama 4 به‌روزرسانی شده است؛ اما قابلیت‌های چندحالته فعلاً فقط در ایالات متحده و فقط به زبان انگلیسی فعال هستند.

متا در وبلاگ خود نوشته است:

«مدل‌های هوش مصنوعی Llama 4 آغازگر عصر جدیدی برای اکوسیستم Llama هستند و این تازه شروع کار است!‌»

معماری ترکیب متخصصان (MoE)

به گفته متا، Llama 4 اولین سری از مدل‌های این شرکت است که از معماری Mixture of Experts (MoE) استفاده می‌کند روشی که در آن مدل اصلی به مجموعه‌ای از مدل‌های کوچک‌تر و تخصصی تقسیم می‌شود، که هر کدام وظیفه‌ی خاصی را برعهده دارند.

برای مثال، مدل Maverick با وجود ۴۰۰ میلیارد پارامتر کل، تنها ۱۷ میلیارد پارامتر فعال دارد که در میان ۱۲۸ متخصص مختلف توزیع شده‌اند (پارامترها در اصل نشان‌دهنده توانایی حل مسئله در مدل هستند).
مدل Scout نیز دارای ۱۰۹ میلیارد پارامتر کل، ۱۷ میلیارد پارامتر فعال و ۱۶ متخصص است.

طبق تست‌های داخلی متا، مدل Maverick که برای استفاده در نقش دستیار عمومی، چت و نویسندگی خلاق طراحی شده، در برخی بنچمارک‌های کدنویسی، استدلال، چندزبانه، متون بلند و تصاویر، از مدل‌هایی مانند GPT-4o و Gemini 2.0 عملکرد بهتری دارد.
با این حال، در مقایسه با مدل‌های جدیدتری مانند Gemini 2.5 Pro، Claude 3.7 Sonnet و GPT-4.5 هنوز عقب‌تر است.

مدل Scout در کارهایی مانند خلاصه‌سازی اسناد و استدلال روی پایگاه‌های کد بزرگ عملکرد بسیار خوبی دارد. نقطه قوت خاص آن، پنجره‌ی متنی عظیم ۱۰ میلیون توکن است.
به زبان ساده، Scout می‌تواند تصاویر و میلیون‌ها واژه را دریافت و پردازش کند؛ بنابراین برای اسناد بسیار طولانی، گزارش‌های فنی یا دیتاست‌های پیچیده گزینه‌ی فوق‌العاده‌ای است.

Scout می‌تواند تنها با یک کارت گرافیک Nvidia H100 اجرا شود، درحالی‌که مدل Maverick به یک سیستم H100 DGX یا معادل آن نیاز دارد.

مدل Behemoth: غول آینده

مدل Behemoth هنوز منتشر نشده؛ اما طبق گفته متا، دارای ۲۸۸ میلیارد پارامتر فعال، ۱۶ متخصص و تقریباً ۲ تریلیون پارامتر کل است. تست‌های داخلی متا نشان می‌دهد مدل Behemoth در برخی بنچمارک‌های علمی و ریاضی از GPT-4.5، Claude 3.7 Sonnet و Gemini 2.0 Pro بهتر عمل کرده، هرچند هنوز به سطح Gemini 2.5 Pro نرسیده است.

آیا این‌ مدل‌ها، واقعا استدلالی هستند؟

هیچ‌کدام از مدل‌های Llama 4 به‌طور خاص مدل استدلالی (reasoning) به‌معنای دقیق کلمه نیستند، مثل سری o1 یا o3-mini از OpenAI.
مدل‌های استدلالی پاسخ‌های خود را بررسی می‌کنند و در کل قابل‌اعتمادتر هستند، اما در عوض کندتر عمل می‌کنند.