در مسابقه ابزارهای هوش مصنوعی،‌ فقط شرکت‌های آمریکایی نیستند که حکومت می‌کنند! بلکه شرکت‌های چینی هم گاهی اوقات یک ابزار جدید و قوی می‌سازند و در این رقابت بزرگ،‌ حرفی برای گفتن پیدا می‌کنند!

دانشگاه Tsinghua پکن و شرکت Shengshu Technology چین، با همکاری یک‌دیگر یک هوش مصنوعی ویدیوساز به نام Vidu توسعه داده‌اند که به نظر می‌رسد برای رقابت با هوش مصنوعی Sora ساخته شده است.

Vidu، یک مدل هوش مصنوعی قدرتمند است که قادر است با دریافت پرامپت‌های متنی،‌ یک ویدیوی 16 ثانیه‌ای با کیفیت بالا در وضوح 1080p بسازد. این مدل،‌ براساس یک معماری به نام Universal Vision Transformer ساخته شده که دو مدل هوش مصنوعی متن به ویدیو Diffusion و Transformer را با هم ترکیب می‌کند.

به گفته ژو جون، معاون دانشگاه Tsinghua،‌ هوش مصنوعی Vidu به عنوان یک مدل هوش مصنوعی چینی،‌ می‌تواند عناصر فرهنگی چینی مثل پاندا و اژدهای چینی را درک و با دقت بالا تولید کند.

همچنین هوش مصنوعی Vidu می‌تواند ویدئوهایی با صحنه‌های پیچیده و مطابق با فیزیک دنیای واقعی، مانند نور و سایه‌های واقع‌گرایانه، و حالات دقیق چهره تولید کند. این مدل همچنین تخیل بسیار بالایی دارد تا اجسام پیچیده و دقیق را هم به تصویر بکشد.

این هوش مصنوعی فعلا در دسترس عمومی قرار ندارد اما ویدیوهای دمو را برای نمایش به عموم قرار داده؛‌ جالب اینکه در این ویدیوها سعی کرده صحنه‌های مشابه ویدیوهای Sora را بازسازی کند!

آیا واقعا هوش مصنوعی چینی‌ها در حد رقابت با هوش مصنوعی آمریکایی‌هاست؟

بااین‌که هوش مصنوعی Vidu یک دستاورد چشمگیر و نشان دهنده پیشرفت سریع چین در تحقیقات هوش مصنوعی است، اما اگر بخواهیم آن را خیلی دقیق با Sora  مقایسه کنیم می‌بینیم که ویدیوهایش به اندازه Sora واقع گرایانه نیستند و خطاهای واضحی دارند.

اما بهرحال مهم است که اذعان کنیم که توانایی‌های فعلی Vidu قابل ستایش است و این فناوری پتانسیل رشد و پیشرفت بیشتر در طول زمان را دارد.

همچنین اخیرا خوانده‌ بودیم که هوش مصنوعی VideoGigaGAN می‌تواند ویدیوهای بی‌کیفیت را به طرز جادویی HD کند.