فرض کنید یکی از نزدیک‌ترین دوستانتان با شما تماس می‌گیرد و شما حتی لحظه‌ای شک نمی‌کنید که صدای آن‌طرف خط، واقعی نیست. اگر صدایی که می‌شنوید ساخته‌ی هوش مصنوعی باشد، چه احساسی خواهید داشت؟

حالا تحقیقات تازه نشان می‌دهد دیپ‌فیک صوتی آن‌قدر پیشرفت کرده که تشخیص آن از صدای واقعی تقریباً غیرممکن شده است. شنوندگان عادی در تمایز بین صدای واقعی انسان و صدای کلون‌شده با هوش مصنوعی تقریباً ناتوان بوده‌اند؛ با این حال، محققان «اثر فراواقعی بودن» (Hyperrealism) را در صدا پیدا نکرده‌اند.

Soundcloud

جدیدترین اخبار تکنولوژی هوش مصنوعی و شبکه‌های اجتماعی را در نامبرلند بخوانید.

براساس گزارش LiveScience ، پژوهشگران دانشگاه کوئین مری لندن آزمایشی انجام داده‌اند که در آن شنوندگان نمی‌توانستند تفاوت بین صدای انسان و صدای ساخته‌شده با هوش مصنوعی را تشخیص دهند. آن‌ها برای ساخت این صداهای جعلی، تنها از ۴ دقیقه صدای واقعی و نرم‌افزارهای عمومی در دسترس استفاده کردند

در این تحقیق، ۸۰ نمونه صدا شامل ۴۰ صدای واقعی و ۴۰ صدای ساخته‌شده با هوش مصنوعی به شرکت‌کنندگان ارائه شد. از میان آن‌ها:

  • تنها ۴۱ درصد از صداهای ساخته‌شده از پایه، به اشتباه، واقعی تشخیص داده شدند.
  • اما در مورد صداهای کلون‌شده از افراد واقعی (دیپ‌فیک صوتی)، بیش از ۵۸ درصد شرکت‌کنندگان فریب خوردند و تصور کردند صدای واقعی است.

در واقع، حتی در مورد صداهای واقعی انسان هم تنها ۶۲ درصد درست تشخیص داده شدند، یعنی هیچ تفاوت آماری معناداری بین صدای واقعی و ساختگی وجود نداشت.

نمونه‌ای از این اتفاق در جولای امسال رخ داد؛ زنی به نام شارون برایت‌ول با تماسی از صدای شبیه دخترش روبه‌رو شد که ادعا می‌کرد تصادف کرده است و برای کمک مالی درخواست داشت. او بعدها فهمید که کل تماس با صدای جعلی هوش مصنوعی انجام شده و ۱۵ هزار دلار از دست داده است.
همچنین در استرالیا، صدای هوش مصنوعی نخست‌وزیر ایالت کویینزلند، «استیون مایلز»، جعل شد تا مردم را برای سرمایه‌گذاری در یک کلاهبرداری بیت‌کوین فریب دهند.

کاربردهای مثبت و منفی دیپ‌فیک صوتی

از آموزش و یادگیری زبان گرفته تا کمک به افراد کم‌توان شنیداری. اما باید به هشدار متخصصان توجه کنیم. همین فناوری می‌تواند بستری برای کلاهبرداری‌های صوتی، جعل هویت و حتی دستکاری افکار عمومی باشد. در واقع، هرچه مرز میان واقعیت و جعل باریک‌تر می‌شود، سطح ریسک‌های امنیتی هم افزایش می‌یابد.

اگر تا دیروز به پیامک‌های مشکوک توجه می‌کردیم، حالا باید به تماس‌های تلفنی هم شک کنیم. اگر شرکت‌ها هم زیرساخت‌های تأیید هویت صوتی را مجدد بازبینی کنند، این مسئله پیشرفت می‌کند؛ چون اعتماد سطحی به صدا دیگر کافی نیست.

آینده نشان می‌دهد که همزمان با قدرت‌گرفتن دیپ‌فیک صوتی، توسعه ابزارهای شناسایی و مقررات سخت‌گیرانه ضروری است. به نظر شما می‌توانیم سرعت نوآوری را با سرعت حفاظت هماهنگ کنیم؟

  • اگر به تحولات هوش مصنوعی و ورود آن به ابزارهای روزمره علاقه‌مندید، این گزارش را از دست ندهید: رونمایی از مدل Gemini 3، پاییز امسال رونمایی می‌شود.