شرکت های بزرگ یکسالی است که سخت در حال رقابت با یکدیگر در زمینه هوش مصنوعی هستند. چت بات های هوش مصنوعی، ابزارهای تبدیل متن به ویدیو و تبدیل متن به عکس و حتی ابزار هوش مصنوعی برای تبدیل متن به آهنگ، نمونه هایی از پیشرفت این شرکت ها است.

VideoPoet، هوش مصنوعی جدید گوگل

گوگل بعد از عرضه چت بات هوش مصنوعی جمنای Gemini، از نوآوری جدید خود رونمایی کرد. هوش مصنوعی جدید گوگل با نام VideoPoet یک مدل بزرگ است که برای انجام وظایف مختلف طراحی شده است. از جمله وظایفی که هوش مصنوعی VideoPoet انجام می دهد، تبدیل متن به ویدیو، تبدیل تصویر به ویدیو، استایل‌سازی ویدیو، inpainting و outpainting و تبدیل ویدیو به صدا است.

گوگل با این کار نشان داد که در حال قدم برداشتن به جهت تولید و حل چالش تولید حرکت‌های بزرگ و پیوسته در ویدیوها که یک محدودیت دائمی در فناوری‌های فعلی تولید ویدیو است.

وجه تمایز VideoPoet با سایر ابزارهای تبدیل متن به ویدیو

ابزارهای زیادی هستند که از آن ها می توان برای تبدیل متن به ویدیو استفاده کرد که واقعا فوق العاده هم هستند؛ اما وجه تمایز VideoPoet با سایر مدل‌ها رویکرد جامع آن است که توانایی‌های چندگانه تولید ویدیو را در یک چارچوب یکپارچه از نوع مدل زبان بزرگ ادغام می‌کند. این مدل از چندین نوع و توکن‌ساز مختلف، از جمله MAGVIT V2 برای ویدیو و تصویر، و همچنین SoundStream برای صدا، در دوره آموزش استفاده می‌کند. این آموزش چندگانه، VideoPoet را به انجام مجموعه‌ای از وظایف، از زنده کردن تصاویر استاتیک تا ویرایش و استایل‌سازی ویدیوها بر اساس ورودی‌های متنی، تقویت می‌کند.

VideoPoet در دنیای فناوری ویدیویی که مدام در حال به روزرسانی است، پیشرفت بزرگی محسوب می شود و در میان مدل هایی که اخیرا معرفی شده مثل ، RunwayML، Stable Video Diffusion، Pika و “Animate Anyone” برجسته است. توانایی بی نظیر این ابزار در حفظ متن و وارد کردن حرکت های جذاب فوق العاده و منحصر بفرد است.