در مسابقه ابزارهای هوش مصنوعی، فقط شرکتهای آمریکایی نیستند که حکومت میکنند! بلکه شرکتهای چینی هم گاهی اوقات یک ابزار جدید و قوی میسازند و در این رقابت بزرگ، حرفی برای گفتن پیدا میکنند!
دانشگاه Tsinghua پکن و شرکت Shengshu Technology چین، با همکاری یکدیگر یک هوش مصنوعی ویدیوساز به نام Vidu توسعه دادهاند که به نظر میرسد برای رقابت با هوش مصنوعی Sora ساخته شده است.
Vidu، یک مدل هوش مصنوعی قدرتمند است که قادر است با دریافت پرامپتهای متنی، یک ویدیوی 16 ثانیهای با کیفیت بالا در وضوح 1080p بسازد. این مدل، براساس یک معماری به نام Universal Vision Transformer ساخته شده که دو مدل هوش مصنوعی متن به ویدیو Diffusion و Transformer را با هم ترکیب میکند.
به گفته ژو جون، معاون دانشگاه Tsinghua، هوش مصنوعی Vidu به عنوان یک مدل هوش مصنوعی چینی، میتواند عناصر فرهنگی چینی مثل پاندا و اژدهای چینی را درک و با دقت بالا تولید کند.
همچنین هوش مصنوعی Vidu میتواند ویدئوهایی با صحنههای پیچیده و مطابق با فیزیک دنیای واقعی، مانند نور و سایههای واقعگرایانه، و حالات دقیق چهره تولید کند. این مدل همچنین تخیل بسیار بالایی دارد تا اجسام پیچیده و دقیق را هم به تصویر بکشد.
این هوش مصنوعی فعلا در دسترس عمومی قرار ندارد اما ویدیوهای دمو را برای نمایش به عموم قرار داده؛ جالب اینکه در این ویدیوها سعی کرده صحنههای مشابه ویدیوهای Sora را بازسازی کند!
آیا واقعا هوش مصنوعی چینیها در حد رقابت با هوش مصنوعی آمریکاییهاست؟
بااینکه هوش مصنوعی Vidu یک دستاورد چشمگیر و نشان دهنده پیشرفت سریع چین در تحقیقات هوش مصنوعی است، اما اگر بخواهیم آن را خیلی دقیق با Sora مقایسه کنیم میبینیم که ویدیوهایش به اندازه Sora واقع گرایانه نیستند و خطاهای واضحی دارند.
اما بهرحال مهم است که اذعان کنیم که تواناییهای فعلی Vidu قابل ستایش است و این فناوری پتانسیل رشد و پیشرفت بیشتر در طول زمان را دارد.
همچنین اخیرا خوانده بودیم که هوش مصنوعی VideoGigaGAN میتواند ویدیوهای بیکیفیت را به طرز جادویی HD کند.