تبدیل یک تصویر ثابت به انیمیشن، همچنان چالشی بزرگ برای مدل‌های مصنوعی است و خیلی از مدل‌ها نمی‌توانند این‌کار را واقع‌گرایانه و طبیعی انجام دهند. مدل‌های موجود اغلب در بازسازی دقیق حالت‌های چهره، حرکات کلی بدن یا پس‌زمینه‌ انیمیشن با مشکل مواجه هستند. البته این مشکلات با معرفی مدل هوش مصنوعی FantasyTalking از چین قرار است حل شود! ویدیوی زیر را ببینید:

هوش مصنوعی FantasyTalking چیست؟

هوش مصنوعی FantasyTalking یک مدل چینی است که برای رفع محدودیت‌های رایج تبدیل عکس به انیمیشن، ارائه شده؛‌ این مدل از یک تبدیل‌گر انتشار ویدیویی آموزش‌دیده (Video Diffusion Transformer) بهره می‌گیرد تا پرتره‌های متحرک با کیفیت بالا، منسجم و دارای دینامیک حرکتی قابل کنترل تولید کند.

طبق توضیحات صفحه Github، در قلب این سیستم، یک راهبرد هماهنگ‌سازی دومرحله‌ای صوتی-تصویری قرار دارد:

  • در مرحله نخست، با استفاده از یک طرح آموزشی در سطح کلیپ، حرکات کلی صحنه (شامل تصویر مرجع، اشیای اطراف و پس‌زمینه) با دینامیک‌های صوتی هماهنگ می‌شود.
  • در مرحله دوم، حرکات لب در سطح فریم با کمک یک ماسک دنبال‌کننده لب اصلاح می‌شود تا هم‌زمانی دقیق‌تری با سیگنال‌های صوتی داشته باشد.

خروجی‌ها و تست‌های مختلف نشان می‌دهد که مدل FantasyTalking از نظر کیفیت، واقع‌گرایی، انسجام، شدت حرکت و حفظ هویت، عملکرد بهتری نسبت به روش‌های پیشین دارد.

هوش مصنوعی FantasyTalking قابلیت هماهنگ‌سازی دقیق لب‌ها را ارائه می‌دهد؛ به‌گونه‌ای که حرکات دهان شخصیت به‌خوبی با صدای ورودی منطبق می‌شوند. این سیستم از سبک‌های مختلف آواتار، از واقع‌گرایانه تا کارتونی پشتیبانی می‌کند و قادر به تولید ویدیوهای مکالمه‌ای بسیار باکیفیت است.

این روزها هم ساخت اکشن فیگور با ChatGPT بسیار ترند شده و شما می‌توانید با وارد کردن پرامپت تخصصی، اکشن فیگور مخصوص خودتان را بسازید!