آیا زمان سلطه‌ی نانو بنانا در تصویرسازی هوش مصنوعی به اتمام رسیده است؟ تازه‌ترین رتبه‌بندی پلتفرم LMArena نشان می‌دهد که مدل Hunyuan Image 3.0، حالا به‌عنوان بهترین مدل متن‌به‌تصویر جهان شناخته شده و رقبای قدرتمندی مثل Seedream 4 و Nano Banana را پشت سر گذاشته است.

Soundcloud

جدیدترین اخبار تکنولوژی هوش مصنوعی و شبکه‌های اجتماعی را در نامبرلند بخوانید.

براساس گزارش منتشرشده توسط LMArena در شبکه‌ی ایکس (توییتر سابق)، Hunyuan Image 3.0 نه‌تنها در رتبه‌بندی کلی، بلکه در بخش مدل‌های متن‌باز نیز در جایگاه نخست ایستاده است.

این داده‌ها نشان می‌دهند که برتری این مدل چینی تصادفی نیست و نتیجه‌ی یک جهش فنی واقعی است.

ساخت تصویر با مدل Hunyuan Image 3.0

مدل Hunyuan Image 3.0 بخشی از پروژه‌ی بزرگ Tencent برای ساخت سیستم‌های چندوجهی هوشمند محسوب می‌شود. طبق اطلاعات رسمی، این مدل بیش از ۸۰ میلیارد پارامتر دارد و از پیچیده‌ترین معماری‌های تصویرسازی جهان بهره می‌برد.

توسعه‌دهندگان می‌گویند Hunyuan می‌تواند دستورهای طولانی چند هزارکلمه‌ای را تحلیل کند، با منطق جهانی استدلال کند و حتی متن دقیق داخل تصویر تولید کند.

ساخت تصویر با مدل Hunyuan Image 3.0

کارشناسان می‌گویند:

«رتبه‌بندی‌های LMArena می‌تواند به کاربران کمک کند تا راحت‌تر تصمیم بگیرند کدام مدل برای پروژه‌هایشان دقیق‌تر یا کاربردی‌تر است.»

روش ساخت تصویر با مدل Hunyuan Image 3.0

برای ساخت تصویر با مدل Hunyuan Image 3.0 کافی است یک پرامپت دقیق و توصیفی بنویسید تا مدل بتواند صحنه، احساس و جزئیات را درست درک کند. این مدل از دستورهای طولانی هم پشتیبانی می‌کند، پس هرچه پرامپت شما کامل‌تر باشد، خروجی واقعی‌تر و دقیق‌تر خواهد بود.

برای شروع:

  1. وارد سایت LMArena شوید و در بخش ویرایش تصاویر، مدل Hunyuan Image 3.0 انتخاب کنید.
  2. در بخش Text to Image، پرامپت خود را به زبان انگلیسی بنویسید (چون مدل با انگلیسی عملکرد بهتری دارد).
  3. در پرامپت، نام شخصیت‌ها، موقعیت مکانی، احساس و سبک تصویر را می‌توانید تغییر دهید:
  4. A high-quality, ultra-realistic photo of [Person 1] and [Person 2] [doing something together], in [location], with [mood / lighting / atmosphere]. The image should look natural, cinematic, and detailed — showing real emotions, soft lighting, and a well-composed background. 8k resolution, realistic skin texture, and photo-quality rendering.
  5. چند ثانیه صبر کنید تا Hunyuan تصویر را بسازد. می‌توانید با تغییر واژه‌ها و سبک‌ها، نسخه‌های مختلف امتحان کنید تا به نتیجه دلخواه برسید.

در حال حاضر، Hunyuan Image 3.0 به‌صورت اختصاصی (Proprietary) در دسترس است، اما منابع نزدیک به Tencent می‌گویند نسخه‌ی بعدی آن ممکن است بخشی از قابلیت‌هایش را به‌صورت عمومی عرضه کند. در هر صورت، به نظر می‌رسد رقابت در دنیای تصویرسازی هوش مصنوعی تازه جدی‌تر شده است.

  • اما در حوزه‌ی صدا، هنوز دقت مدل‌های گفتاری چالش‌برانگیز است. جزئیات بیشتر را در گزارش دقت حالت صوتی AI بخوانید.