تبدیل یک تصویر ثابت به انیمیشن، همچنان چالشی بزرگ برای مدلهای مصنوعی است و خیلی از مدلها نمیتوانند اینکار را واقعگرایانه و طبیعی انجام دهند. مدلهای موجود اغلب در بازسازی دقیق حالتهای چهره، حرکات کلی بدن یا پسزمینه انیمیشن با مشکل مواجه هستند. البته این مشکلات با معرفی مدل هوش مصنوعی FantasyTalking از چین قرار است حل شود! ویدیوی زیر را ببینید:
هوش مصنوعی FantasyTalking چیست؟
هوش مصنوعی FantasyTalking یک مدل چینی است که برای رفع محدودیتهای رایج تبدیل عکس به انیمیشن، ارائه شده؛ این مدل از یک تبدیلگر انتشار ویدیویی آموزشدیده (Video Diffusion Transformer) بهره میگیرد تا پرترههای متحرک با کیفیت بالا، منسجم و دارای دینامیک حرکتی قابل کنترل تولید کند.
طبق توضیحات صفحه Github، در قلب این سیستم، یک راهبرد هماهنگسازی دومرحلهای صوتی-تصویری قرار دارد:
- در مرحله نخست، با استفاده از یک طرح آموزشی در سطح کلیپ، حرکات کلی صحنه (شامل تصویر مرجع، اشیای اطراف و پسزمینه) با دینامیکهای صوتی هماهنگ میشود.
- در مرحله دوم، حرکات لب در سطح فریم با کمک یک ماسک دنبالکننده لب اصلاح میشود تا همزمانی دقیقتری با سیگنالهای صوتی داشته باشد.
خروجیها و تستهای مختلف نشان میدهد که مدل FantasyTalking از نظر کیفیت، واقعگرایی، انسجام، شدت حرکت و حفظ هویت، عملکرد بهتری نسبت به روشهای پیشین دارد.
هوش مصنوعی FantasyTalking قابلیت هماهنگسازی دقیق لبها را ارائه میدهد؛ بهگونهای که حرکات دهان شخصیت بهخوبی با صدای ورودی منطبق میشوند. این سیستم از سبکهای مختلف آواتار، از واقعگرایانه تا کارتونی پشتیبانی میکند و قادر به تولید ویدیوهای مکالمهای بسیار باکیفیت است.
این روزها هم ساخت اکشن فیگور با ChatGPT بسیار ترند شده و شما میتوانید با وارد کردن پرامپت تخصصی، اکشن فیگور مخصوص خودتان را بسازید!