هوش مصنوعی Sesame بهتازگی معرفی شده و همه را در شک و حیرت فرو برده است! این مدل، یک مدل صوتی هوش مصنوعی مکالمهای پیشرفته است که بسیار طبیعی و واقعگرایانه با شما صحبت میکند طوری که کاملا فراموش میکنید در حال صحبت با یک مدل هوش مصنوعی هستید. ویدیوی زیر را گوش کنید که این مدل را در حال دعوا نشان میدهد:
درباره هوش مصنوعی Sesame چه میدانیم؟
هوش مصنوعی Sesame یک نسخه آزمایشی مکالمهای است که از شرکتی با همین نام منتشر شده است. هسته فناوری این مدل، مدل گفتار مکالمهای (CSM) آن است که متن و صدا را در یک فرآیند واحد ترکیب میکند و گفتاری تولید میکند که میتواند بسیار عجیب مکالمه انسانی را تقلید کند.
این مدل دو صدای زنانه و مردانه به نامهای مایلز و مایا دارد.
مدل Sesame با یکمیلیون ساعت صدای ضبطشده انگلیسی آموزش دیده است.
ویژگیهای کلیدی هوش مصنوعی Sesame عبارتند از:
- کیفیت صدای طبیعی با لحن، ریتم و احساسهایی شبیه انسان
- پشتیبانی از صدای زنانه و مردانه
- تولید صدا با حداقل تأخیر
- ادغام آسان از طریق APIها و SDKها
- گزینههای سفارشیسازی گسترده برای پارامترهای صدا
آنچه هوش مصنوعی Sesame را متمایز میکند، توانایی آن در صحبت کردن شبیه انسان است؛ این مدل مکث میکند، لحنهای مختلف مثل تردید یا تعجب را شبیهسازی میکند، قهقه میزند، نفس میکشد، تپق میزند و حتی گاهی زبانش میگیرد!
تا به حال مدل زبانی تا این اندازه طبیعی وجود نداشته است و همین موضوع این مدل را ترسناک کرده است.
خود مدل نسبتا کوچک است، با تقریبا 1 میلیارد پارامتر، اگرچه مدلهای بزرگتر آن هم در حال توسعه هستند. با وجود اندازهاش، مدل Sesame به عنوان یک پیشرفت بزرگ در فناوری هوش مصنوعی صوتی مورد تحسین قرار گرفته است، البته خیلیها آن را ترسناک و نامناسب دانستهاند چراکه واقعا شبیه ما آدمها است!
شما میتوانید نسخه دموی این مدل را در سایت sesame امتحان کنید.
قبلا هم مدل هوش مصنوعی ElevenLabs را دیده بودیم که قادر است صدا را به متن تبدیل کند و حتی مکالمه کند.