تا به حال چند هوش مصنوعی ساخت ویدیو دیدهاید؟ از هوش مصنوعی Sora گرفته تا گوگل Veo، مدلهای زیادی وجود دارد که قادر هستند ویدیوهای بسیار باکیفیت و خیره کننده بسازند. اما همه این مدلها یک مشکل مشترک دارند: خروجی همیشه بیصداست و مدل نمیتواند در کنار ویدیو، صدا هم بسازد. اما این مشکل توسط گوگل در حال حل شدن است! ویدیوی زیر را ببینید که هم صدا و هم تصویر با هوش مصنوعی جدید گوگل ساخته شده است:
هوش مصنوعی V2A برای پردازش همزمان صدا و ویدیو
آزمایشگاه هوش مصنوعی DeepMind گوگل در حال کار بر روی فناوری جدیدی است که می تواند همراه با ویدئو، صدا هم تولید کند. این آزمایشگاه در وبلاگ رسمی خود خبر از پروژه جدیدی به نام هوش مصنوعی V2A داده که میتواند با Google Veo و سایر ابزارهای ایجاد ویدیو مانند OpenAI’s Sora هماهنگ شود و برای ویدیوهایشان، صدا بسازد.
تیم DeepMind توضیح میدهد که این مدل میتواند پیکسلهای خام را درک کند و با پرامپتهای متنی جلوههای صوتی بسازد.
محققان DeepMind این فناوری را بر روی فیلمها، فایلهای صوتی و حاشیهنویسیهای تولید شده توسط هوش مصنوعی که حاوی توضیحات مفصلی از صداها و متن گفتگوهاست، آموزش دادند. آنها اعلام کردهاند که به این ترتیب مدل یاد گرفت که صداهای خاص را با صحنه های بصری خاص، مرتبط کند.
این پیشرفت هوش مصنوعی جدید گوگل در حالی است که هوش مصنوعی Stable Diffusion اخیرا در ساخت تصاویر از انسان بسیار بد عمل کرده و تصاویر هولناک و ترسناکی از چهره و بدن انسانها ساخته است!