شرکت های بزرگ یکسالی است که سخت در حال رقابت با یکدیگر در زمینه هوش مصنوعی هستند. چت بات های هوش مصنوعی، ابزارهای تبدیل متن به ویدیو و تبدیل متن به عکس و حتی ابزار هوش مصنوعی برای تبدیل متن به آهنگ، نمونه هایی از پیشرفت این شرکت ها است.
VideoPoet، هوش مصنوعی جدید گوگل
گوگل بعد از عرضه چت بات هوش مصنوعی جمنای Gemini، از نوآوری جدید خود رونمایی کرد. هوش مصنوعی جدید گوگل با نام VideoPoet یک مدل بزرگ است که برای انجام وظایف مختلف طراحی شده است. از جمله وظایفی که هوش مصنوعی VideoPoet انجام می دهد، تبدیل متن به ویدیو، تبدیل تصویر به ویدیو، استایلسازی ویدیو، inpainting و outpainting و تبدیل ویدیو به صدا است.
گوگل با این کار نشان داد که در حال قدم برداشتن به جهت تولید و حل چالش تولید حرکتهای بزرگ و پیوسته در ویدیوها که یک محدودیت دائمی در فناوریهای فعلی تولید ویدیو است.
وجه تمایز VideoPoet با سایر ابزارهای تبدیل متن به ویدیو
ابزارهای زیادی هستند که از آن ها می توان برای تبدیل متن به ویدیو استفاده کرد که واقعا فوق العاده هم هستند؛ اما وجه تمایز VideoPoet با سایر مدلها رویکرد جامع آن است که تواناییهای چندگانه تولید ویدیو را در یک چارچوب یکپارچه از نوع مدل زبان بزرگ ادغام میکند. این مدل از چندین نوع و توکنساز مختلف، از جمله MAGVIT V2 برای ویدیو و تصویر، و همچنین SoundStream برای صدا، در دوره آموزش استفاده میکند. این آموزش چندگانه، VideoPoet را به انجام مجموعهای از وظایف، از زنده کردن تصاویر استاتیک تا ویرایش و استایلسازی ویدیوها بر اساس ورودیهای متنی، تقویت میکند.
VideoPoet در دنیای فناوری ویدیویی که مدام در حال به روزرسانی است، پیشرفت بزرگی محسوب می شود و در میان مدل هایی که اخیرا معرفی شده مثل ، RunwayML، Stable Video Diffusion، Pika و “Animate Anyone” برجسته است. توانایی بی نظیر این ابزار در حفظ متن و وارد کردن حرکت های جذاب فوق العاده و منحصر بفرد است.