مایکروسافت چندی پیش در جریان کنفرانس بیلد 2024، مدل کوچک خود به نام هوش مصنوعی Phi-3-vision، را معرفی کرد. این مدل چندوجهی توانایی‌های ویژه‌ای دارد و در بنچمارک‌های اخیر، عملکرد خیلی قدرتمندی از خود نشان داده است.

شاید سوال شما هم بوده که بدانید Phi-3-vision چقدر کارایی دارد؟ به نقل از mspoweruser، مقاله‌ای که اخیراً منتشر شده نشان می دهد که این مدل با سایر مدل‌های کوچک مانند Claude 3-haiku و Gemini 1.0 Pro همتراز است! و حتی نسبت به یک سری رقبای دیگرش برتری دارد.

Phi-3-vision، با 4.2 میلیارد پارامتر، توانایی تجزیه و تحلیل نمودارها، جدول‌ها و چارت‌ها را دارد. همچنین می‌تواند تصاویر دارای متن را به خوبی پردازش کند.

برخلاف مدل‌های بزرگ‌تر مانند DALL-E یا Stable Diffusion، مدل هوش هوش مصنوعی Phi-3-vision تصاویری تولید نمی‌کند، اما به خوبی تصاویر را درک، تجزیه و تحلیل می‌کند.

در خبرهای اخیر مربوط به مایکروسافت همچنین خوانده بودیم که قرار قابلیت ترجمه و دوبله همزمان ویدیوها به زودی روی مرورگر edge در دسترس شود.