در حال حاضر، ابزارهای هوش مصنوعی بسیاری در بازار وجود دارند که می‌توانند متن از شما (به عنوان کاربر) بگیرند و آن را به تصویر تبدیل کنند. حتی مدل‌هایی هم وجود دارد که تصویر را می‌گیرد و آن را به تصویر دیگری تبدیل کند. ولی تا به حال مدلی نبوده که بتواند صدا را از شما بگیرد و آن را به ویدیو تبدیل کند. اما به نظر می‌رسد مایکروسافت در حال کار روی چنین مدلی است!

هوش مصنوعی مایکروسافت احتمالا واقعا حرف‌هایتان را به تصویر می‌کشد

دفتر ثبت اختراعات و علائم تجاری ایالات متحده (USPTO) یک سند 20 صفحه‌ای از مایکروسافت منتشر کرده است که درباره یک مدل جدید هوش مصنوعی تبدیل صدا به تصویر است!

این مدل می‌تواند فایل صوتی را از شما بگیرد و آن را به یک رونویسی تبدیل کند؛ سپس این رونویسی توسط یک مدل زبان بزرگ (LLM) به یک تصویر تبدیل می‌کند؛ یعنی ساخت عکس با هوش مصنوعی انجام می شود.

مثلا فرض کنید که در یک جلسه هستید و همینطور که صحبت می‌کنید،‌ این هوش مصنوعی به صدای شما گوش می‌دهد و حرف‌هایتان را به تصویر تبدیل می‌کند!

این مدل به فایل صوتی شما گوش می‌دهد و تصاویر زنده را به طور مداوم تولید می‌کند. طبق گفته مایکروسافت، نمایش تصاویر در زمان واقعی می‌تواند به موثرتر شدن ارتباطات کمک کند، به کمک ابزارهای بصری افراد را بیشتر درگیر موضوع کرده و مفاهیم را راحت‌تر قابل درک ‌کند.

اگر کنجکاو هستید که آیا این ویژگی به زودی راه‌اندازی خواهد شد، پاسخ احتمالاً خیر است. ثبت اختراع با تولید محصول و عرضه عمومی بسیار فاصله دارد و بسیاری از اختراعات هرگز وارد مرحله تولید نمی‌شوند و صرفاً یک ایده باقی می‌مانند.

با این حال، اگر مایکروسافت تصمیم به راه‌اندازی این هوش مصنوعی تبدیل صدا به تصویر بگیرد، احتمالاً در Microsoft Teams، پلتفرم جلسات ویدیویی کنفرانس خود، و از طریق افزونه هوش مصنوعی خود، Copilot، مانند Copilot Pro یا Microsoft 365 Copilot برای بیزینس‌ها، در دسترس خواهد بود.