تا به حال چند هوش مصنوعی ساخت ویدیو دیده‌اید؟‌ از هوش مصنوعی Sora گرفته تا گوگل Veo، مدل‌های زیادی وجود دارد که قادر هستند ویدیوهای بسیار باکیفیت و خیره کننده بسازند. اما همه این مدل‌ها یک مشکل مشترک دارند:‌ خروجی همیشه بی‌صداست و مدل نمی‌تواند در کنار ویدیو،‌ صدا هم بسازد. اما این مشکل توسط گوگل در حال حل شدن است! ویدیوی زیر را ببینید که هم صدا و هم تصویر با هوش مصنوعی جدید گوگل ساخته شده است:

هوش مصنوعی V2A برای پردازش همزمان صدا و ویدیو

آزمایشگاه هوش مصنوعی DeepMind گوگل در حال کار بر روی فناوری جدیدی است که می تواند همراه با ویدئو،‌ صدا هم تولید کند. این آزمایشگاه در وبلاگ رسمی خود خبر از پروژه جدیدی به نام هوش مصنوعی V2A داده که می‌تواند با Google Veo و سایر ابزارهای ایجاد ویدیو مانند OpenAI’s Sora هماهنگ شود و برای ویدیوهایشان،‌ صدا بسازد.

تیم DeepMind توضیح می‌دهد که این مدل می‌تواند پیکسل‌های خام را درک کند و با پرامپت‌های متنی جلوه‌های صوتی بسازد.

محققان DeepMind این فناوری را بر روی فیلم‌ها، فایل‌های صوتی و حاشیه‌نویسی‌های تولید شده توسط هوش مصنوعی که حاوی توضیحات مفصلی از صداها و متن گفتگوهاست، آموزش دادند. آنها اعلام کرده‌اند که به این ترتیب مدل یاد گرفت که صداهای خاص را با صحنه های بصری خاص، مرتبط کند.

این پیشرفت هوش مصنوعی جدید گوگل در حالی است که هوش مصنوعی Stable Diffusion اخیرا در ساخت تصاویر از انسان بسیار بد عمل کرده و تصاویر هولناک و ترسناکی از چهره و بدن انسان‌ها ساخته است!