هوش مصنوعی Sesame به‌تازگی معرفی شده و همه را در شک و حیرت فرو برده است! این مدل، یک مدل صوتی هوش مصنوعی مکالمه‌ای پیشرفته است که بسیار طبیعی و واقع‌گرایانه با شما صحبت می‌کند طوری‌ که کاملا فراموش می‌کنید در حال صحبت با یک مدل هوش مصنوعی هستید. ویدیوی زیر را گوش کنید که این مدل را در حال دعوا نشان می‌دهد:

درباره هوش مصنوعی Sesame چه می‌دانیم؟

هوش مصنوعی Sesame یک نسخه آزمایشی مکالمه‌ای است که از شرکتی با همین نام منتشر شده است. هسته‌ فناوری این مدل، مدل گفتار مکالمه‌ای (CSM) آن است که متن و صدا را در یک فرآیند واحد ترکیب می‌کند و گفتاری تولید می‌کند که می‌تواند بسیار عجیب مکالمه‌ انسانی را تقلید کند.

این مدل دو صدای زنانه و مردانه به نام‌های مایلز و مایا دارد.

مدل Sesame با یک‌میلیون ساعت صدای ضبط‌شده انگلیسی آموزش دیده است.

ویژگی‌های کلیدی هوش مصنوعی Sesame عبارتند از:

  • کیفیت صدای طبیعی با لحن، ریتم و احساس‌هایی شبیه انسان
  • پشتیبانی از صدای زنانه و مردانه
  • تولید صدا با حداقل تأخیر
  • ادغام آسان از طریق APIها و SDKها
  • گزینه‌های سفارشی‌سازی گسترده برای پارامترهای صدا

آنچه هوش مصنوعی Sesame را متمایز می‌کند، توانایی آن در صحبت کردن شبیه انسان است؛ این مدل مکث می‌کند، لحن‌های مختلف مثل تردید یا تعجب را شبیه‌سازی می‌کند، قهقه می‌زند، نفس می‌کشد، تپق می‌زند و حتی گاهی زبانش می‌گیرد!

تا به حال مدل زبانی تا این اندازه طبیعی وجود نداشته است و همین موضوع این مدل را ترسناک کرده است.

خود مدل نسبتا کوچک است، با تقریبا 1 میلیارد پارامتر، اگرچه مدل‌های بزرگتر آن هم در حال توسعه هستند. با وجود اندازه‌اش، مدل Sesame به عنوان یک پیشرفت بزرگ در فناوری هوش مصنوعی صوتی مورد تحسین قرار گرفته است، البته خیلی‌ها آن را ترسناک و نامناسب دانسته‌اند چراکه واقعا شبیه ما آدم‌ها است!

شما می‌توانید نسخه دموی این مدل را در سایت sesame امتحان کنید.

قبلا هم مدل هوش مصنوعی ElevenLabs را دیده بودیم که قادر است صدا را به متن تبدیل کند و حتی مکالمه کند.