وقتی هوش مصنوعی با ما حرف می‌زند، انتظار داریم همان‌قدر دقیق باشد که در حالت نوشتاری است. اما کاربران ChatGPT می‌گویند پاسخ‌های «حالت صوتی» (Voice Mode) آن گاهی اشتباه، ناقص یا حتی بی‌ربط‌اند. آیا مشکل از خود مدل است یا از فرایند شنیدن و گفتن؟

Soundcloud

جدیدترین اخبار تکنولوژی هوش مصنوعی و شبکه‌های اجتماعی را در نامبرلند بخوانید.

براساس گزارش ZDNet، آزمایش‌ کاربران و تحلیل‌های فنی نشان می‌دهد دقت پاسخ‌های ChatGPT در حالت صوتی نسبت به حالت متنی پایین‌تر است. دلیل اصلی این موضوع، خطاهایی است که هنگام تبدیل گفتار به متن (Speech-to-Text) و بالعکس رخ می‌دهد.

حتی اگر از ChatGPT با زبان فارسی استفاده می‌کنید، خطاهای حالت صوتی حتی بیشتر هم می‌شود، چون مدل Whisper در درک فارسی هنوز دقت محدودی دارد.

پژوهش‌ها نشان داده‌اند که سیستم‌های صوتی در مدل‌های زبانی مختلف، در حدود ۱٪ مواقع عباراتی تولید می‌کنند که اصلا در گفتار واقعی وجود ندارد. در متون تخصصی به این اتفاق «هلوسیناسیون گفتاری» می‌‌گویند. این خطاهای کوچک باعث می‌شوند دقت پاسخ‌هایی که کاربران دریافت می‌کنند به‌صورت محسوسی کم شود.

برای مثال: «در یکی از تست‌ها، وقتی از ChatGPT خواسته شد زمان پرتاب راکت اسپیس‌ایکس را اعلام کند، حالت متنی عدد دقیق را گفت اما حالت صوتی آن را با تاریخ قدیمی اشتباه گرفت؛ چون در تبدیل صوت، عبارت next launch به last launch تعبیر شده بود.»

البته ChatGPT تنها مدلی است که هنوز از سیستم گفتار به متن مستقل (Whisper) استفاده می‌کند. Copilot و Gemini از موتورهای پردازش زنده‌ی گفتار گوگل و مایکروسافت بهره می‌برند که دقت بهتری در لهجه‌ها دارند.

چگونه از Voice Mode استفاده کنیم؟

اگر می‌خواهید از Voice Mode با دقت بالاتر استفاده کنید، بهتر است جمله‌هایتان را کوتاه و شمرده بگویید، از محیط‌های پر سر و صدا پرهیز کنید و نتیجه را در حالت متنی بررسی کنید.

  • اگر از علاقه‌مندان به تولید محتوای چندرسانه‌ای با هوش مصنوعی هستید، خبر ساخت ویدیو با Sora 2 را هم بخوانید. در این گزارش با نحوه‌ی دسترسی، کد دعوت و قابلیت شخصی‌سازی پرامپت‌های ویدیویی در Sora 2 آشنا می‌شوید.