شرکت کانادایی Cohere مدلی ساخته که با دو کارت گرافیک، از GPT-4V و Gemini بهتر عمل می‌کند. این سامانه‌ی هوشمند، در آزمون‌هایی که عملکرد AI در درک محتوای عکس‌ها را می‌سنجد، از مدل‌های پیشرفته‌ای مانند GPT-4V ،Gemini و Claude 3 پیشی گرفته است.

این روزها و در حالی که بسیاری از شرکت‌های بزرگ برای ساخت هوش مصنوعی‌های تصویری، به ده‌ها کارت گرافیک قدرتمند نیاز دارند، شرکت کانادایی Cohere با معرفی یک هوش مصنوعی سبک برای تحلیل تصاویر، همه را شگفت‌زده کرده است.

ویژگی‌های Cohere چیست؟

شرکت Cohere تلاش کرده یک مدل کاربردی، قابل‌استفاده در دنیای واقعی و بهینه از نظر منابع بسازد. این یعنی توسعه‌دهندگان و شرکت‌های کوچک‌تر هم می‌توانند از آن بهره‌مند شوند، بدون نیاز به زیرساخت‌های سنگین و پرهزینه. این مدل طوری طراحی شده که هم سبک و سریع باشد، هم در شرایط واقعی عملکرد قابل قبولی داشته باشد. به خاطر داشته باشید که در آزمون‌هایی مانند:

  • ScienceQA (پرسش‌وپاسخ بر اساس تصاویر)
  • VizWiz (درک تصاویر گرفته‌شده توسط نابینایان)

این مدل توانسته پاسخ‌های دقیق‌تر و کاربردی‌تری ارائه دهد، آن هم بدون نیاز به زیرساخت پیچیده؛ زیرا روی این تمرکز کرده که چطور بتوان یک مدل هوش مصنوعی ساخت که واقعاً به درد استفاده روزمره بخورد.

در نهایت این مدل هوش مصنوعی می‌تواند:

  • محتوای تصاویر را به زبان طبیعی توصیف کند
  • به پرسش‌هایی درباره عکس‌ها پاسخ دهد
  • اشیاء یا جزئیات خاص را در تصاویر تشخیص دهد
  • و همه این‌ها را با سرعت بالا و مصرف پایین منابع انجام دهد.

می‌توانید جزئیات این خبر را در وب‌سایت VentureBeat بخوانید.