در حال حاضر، ابزارهای هوش مصنوعی بسیاری در بازار وجود دارند که میتوانند متن از شما (به عنوان کاربر) بگیرند و آن را به تصویر تبدیل کنند. حتی مدلهایی هم وجود دارد که تصویر را میگیرد و آن را به تصویر دیگری تبدیل کند. ولی تا به حال مدلی نبوده که بتواند صدا را از شما بگیرد و آن را به ویدیو تبدیل کند. اما به نظر میرسد مایکروسافت در حال کار روی چنین مدلی است!
هوش مصنوعی مایکروسافت احتمالا واقعا حرفهایتان را به تصویر میکشد
دفتر ثبت اختراعات و علائم تجاری ایالات متحده (USPTO) یک سند 20 صفحهای از مایکروسافت منتشر کرده است که درباره یک مدل جدید هوش مصنوعی تبدیل صدا به تصویر است!
این مدل میتواند فایل صوتی را از شما بگیرد و آن را به یک رونویسی تبدیل کند؛ سپس این رونویسی توسط یک مدل زبان بزرگ (LLM) به یک تصویر تبدیل میکند؛ یعنی ساخت عکس با هوش مصنوعی انجام می شود.
مثلا فرض کنید که در یک جلسه هستید و همینطور که صحبت میکنید، این هوش مصنوعی به صدای شما گوش میدهد و حرفهایتان را به تصویر تبدیل میکند!
این مدل به فایل صوتی شما گوش میدهد و تصاویر زنده را به طور مداوم تولید میکند. طبق گفته مایکروسافت، نمایش تصاویر در زمان واقعی میتواند به موثرتر شدن ارتباطات کمک کند، به کمک ابزارهای بصری افراد را بیشتر درگیر موضوع کرده و مفاهیم را راحتتر قابل درک کند.
اگر کنجکاو هستید که آیا این ویژگی به زودی راهاندازی خواهد شد، پاسخ احتمالاً خیر است. ثبت اختراع با تولید محصول و عرضه عمومی بسیار فاصله دارد و بسیاری از اختراعات هرگز وارد مرحله تولید نمیشوند و صرفاً یک ایده باقی میمانند.
با این حال، اگر مایکروسافت تصمیم به راهاندازی این هوش مصنوعی تبدیل صدا به تصویر بگیرد، احتمالاً در Microsoft Teams، پلتفرم جلسات ویدیویی کنفرانس خود، و از طریق افزونه هوش مصنوعی خود، Copilot، مانند Copilot Pro یا Microsoft 365 Copilot برای بیزینسها، در دسترس خواهد بود.