وقتی هوش مصنوعی با ما حرف میزند، انتظار داریم همانقدر دقیق باشد که در حالت نوشتاری است. اما کاربران ChatGPT میگویند پاسخهای «حالت صوتی» (Voice Mode) آن گاهی اشتباه، ناقص یا حتی بیربطاند. آیا مشکل از خود مدل است یا از فرایند شنیدن و گفتن؟
جدیدترین اخبار تکنولوژی هوش مصنوعی و شبکههای اجتماعی را در نامبرلند بخوانید.
براساس گزارش ZDNet، آزمایش کاربران و تحلیلهای فنی نشان میدهد دقت پاسخهای ChatGPT در حالت صوتی نسبت به حالت متنی پایینتر است. دلیل اصلی این موضوع، خطاهایی است که هنگام تبدیل گفتار به متن (Speech-to-Text) و بالعکس رخ میدهد.
حتی اگر از ChatGPT با زبان فارسی استفاده میکنید، خطاهای حالت صوتی حتی بیشتر هم میشود، چون مدل Whisper در درک فارسی هنوز دقت محدودی دارد.
پژوهشها نشان دادهاند که سیستمهای صوتی در مدلهای زبانی مختلف، در حدود ۱٪ مواقع عباراتی تولید میکنند که اصلا در گفتار واقعی وجود ندارد. در متون تخصصی به این اتفاق «هلوسیناسیون گفتاری» میگویند. این خطاهای کوچک باعث میشوند دقت پاسخهایی که کاربران دریافت میکنند بهصورت محسوسی کم شود.
برای مثال: «در یکی از تستها، وقتی از ChatGPT خواسته شد زمان پرتاب راکت اسپیسایکس را اعلام کند، حالت متنی عدد دقیق را گفت اما حالت صوتی آن را با تاریخ قدیمی اشتباه گرفت؛ چون در تبدیل صوت، عبارت next launch به last launch تعبیر شده بود.»
البته ChatGPT تنها مدلی است که هنوز از سیستم گفتار به متن مستقل (Whisper) استفاده میکند. Copilot و Gemini از موتورهای پردازش زندهی گفتار گوگل و مایکروسافت بهره میبرند که دقت بهتری در لهجهها دارند.
چگونه از Voice Mode استفاده کنیم؟
اگر میخواهید از Voice Mode با دقت بالاتر استفاده کنید، بهتر است جملههایتان را کوتاه و شمرده بگویید، از محیطهای پر سر و صدا پرهیز کنید و نتیجه را در حالت متنی بررسی کنید.
- اگر از علاقهمندان به تولید محتوای چندرسانهای با هوش مصنوعی هستید، خبر ساخت ویدیو با Sora 2 را هم بخوانید. در این گزارش با نحوهی دسترسی، کد دعوت و قابلیت شخصیسازی پرامپتهای ویدیویی در Sora 2 آشنا میشوید.
