شرکت OpenAI اعلامیه ای منتشر کرده و در آن اعلام کرده که در حال اضافه کردن قابلیت‌های جدیدی به ChatGPT هستند. این قابلیت‌ها به کاربران این امکان را می‌دهند تا با ChatGPT از طریق گفتار یا تصاویر گفت‌وگو کنند. به عبارت دیگر، شما می‌توانید با استفاده از گفتار یا تصاویر با ChatGPT ارتباط برقرار کنید و از طریق این واسط‌ه های جدید و باطنی به ChatGPT بفهمانید که در مورد چه موضوعی صحبت می‌کنید. هم چنین می‌توانید از آن سوال بپرسید.

امکانات جدیدی که به ChatGPT  اضافه شده، مدل جدیدی از تعامل را ارائه داده و تجربه کاربران را هم بهبود می بخشد.

همچین OpenAI گفته: ما در حال ارائه قابلیت‌های جدیدی در زمینه‌های صدا و تصویر در ChatGPT هستیم. این قابلیت‌ها به شما امکان مکالمه با ChatGPT به صورت گفتاری و یا نمایش موضوع مورد بحث خود را می‌دهند.

استفاده از این قابلیت‌های صوتی و تصویری به شما این امکان را می‌دهد تا با ChatGPT به روش‌های جدیدی تعامل کنید. به عنوان مثال، شما می‌توانید عکسی از یک منظره در سفر گرفته و درباره جزئیات جالب آن با ChatGPT صحبت کنید. هنگامی که در خانه هستید، می‌توانید عکس‌هایی از یخچال و مواد غذایی خود بگیرید تا ببینید چه غذایی درست کنید (و از ChatGPT سوالات مرتبط با دستور پخت یا مواد لازم را بپرسید). همچنین می‌توانید پس از شام به فرزندتان در حل یک مسئله ریاضی کمک کنید. برای این کار، عکس مسئله را بگیرید، دور مساله مورد نظر خط بکشید، و ChatGPT به شما و فرزندتان راهنمایی‌های لازم را ارائه دهد.

ما قرار است این قابلیت‌های صوتی و تصویری را در طی دو هفته آینده برای کاربران پلن‌های Plus و Enterprise ارائه دهیم. قابلیت صدا بر روی سیستم‌عامل‌های iOS و Android (با فعال‌سازی در تنظیمات) فعال خواهد شد و تصاویر در تمام پلتفرم‌ها قابل استفاده خواهد بود. این امکانات جدید به شما امکان می‌دهند تا ChatGPT را به شکلی مؤثرتر و گسترده‌تر در زندگی‌تان به کار ببرید.

با ChatGPT صحبت کنید و از او بخواهید پاسخ دهد

اکنون می‌توانید با چت جی پی تی حرف بزنید، او صدای شما را می شنود و به درخواست شما پاسخ می دهد. می‌توانید از او برای خواب یک قصه بخواهید تا با صدای خودش برایتان بخواند.

چگونه قابلیت گفتاری را فعال کنیم؟

برای شروع استفاده از قابلیت گفتاری، شما باید به بخش “تنظیمات” در اپلیکیشن موبایل بروید و به بخش “ویژگی‌های جدید” بروید. سپس باید به قسمت گفتگوهای صوتی در این بخش بروید و این قابلیت را فعال کنید (opt into).

سپس باید روی دکمه هدفون در گوشه بالا و راست صفحه اصلی برنامه کلیک کرده و یکی از پنج صدای موجود را به عنوان صدای ترجیحی خود انتخاب کنید.

این قابلیت جدید صدا توسط یک مدل متن به گفتار جدید تغذیه می‌شود که توانایی تولید صداهای مشابه انسان را از متن و چند ثانیه صدای نمونه دارد. برای ایجاد هر یک از این صداها، با بازیگران حرفه‌ای صدا همکاری شده است. همچنین از سیستم تشخیص گفتار متن‌به‌گفتار متن‌باز ما به نام “Whisper” برای تبدیل کردن کلمات گفتاری شما به متن استفاده می‌شود.

صحبت کردن در مورد تصویر

با اضافه شدن چنین ویژگی‌ای به ChatGPT می‌توانید یک یا چند تصویر برای او ارسال کنید، سوال خود را در مورد تصویر مطرح کنید و از ChatGPT کمک بخواهید. می‌توانید عکس از داخل یخچال بگیرید تا او شما را برای پخت غذا راهنمایی کند.

چنین ویژگی ای برای دانش آموزان و دانشجویان فوق العاده است. آن ها می‌توانند از مسائل سخت و پیچیده، نمودار های تجزیه و تحلیل و … عکس بگیرند و برای ChatGPT ارسال کنند تا او به آن ها در حل مساله کمک کند. برای تمرکز بر روی بخش خاصی از تصویر، می‌توانید از ابزار نقاشی در اپلیکیشن موبایل ما استفاده کنید.

تفهیم تصاویر توسط مدل‌های چندحالته GPT-3.5 و GPT-4 انجام می‌شود. این مدل‌ها توانایی استدلال زبانی خود را به تصاویر متنوعی اعم از عکس‌ها، تصاویر از صفحه نمایش، و اسنادی که شامل همزمان متن و تصاویر هستند، اعمال می‌کنند. به این ترتیب، می‌توانند توانایی تفهیم و تعامل با تصاویر را داشته باشند.

قابلیت های تصویر و صدا به تدریج پیاده سازی می‌شوند

هدف OpenAI ایجاد یک هوش مصنوعی عمومی و اختصاصی (AGI) است که ایمن و مفید باشد. OpenAI اعتقاد دارد که ارائه‌ی تدریجی ابزارها، این امکان را می‌دهد تا با گذشت زمان بهبودهایی حاصل شود و یکسری از خطرها کاهش پیدا کند. این استراتژی با مدل‌های پیشرفته ای که با صدا و دیدگاه مرتبط هستند، حتی مهم‌تر می‌شود.

صدا

OpenAI از تکنولوژی صدای جدید استفاده کرده است که قادر به ساخت صداهای مصنوعی واقع گرایانه از چندثانیه گفتار واقعی است. این تکنولوژی امکانات جدیدی در زمینه‌های خلاقانه و دسترسی‌پذیری ایجاد می‌کند. با این حال، این قابلیت‌ها همچنین ریسک‌های جدیدی ایجاد می‌کنند، مانند امکان تقلب توسط اشخاص بدنام یا احتمال تقلب.

برای مقابله با این ریسک‌ها، تکنولوژی صدا به یک مورد استفاده خاص توانمندی تعبیه شده است که به چت صوتی قدرت می‌بخشد. چت صوتی با همکاری بازیگران صدا که به صورت مستقیم با آنها کار شده، ایجاد شده است. همچنین OpenAI به همین روش با دیگران همکاری می‌کند. به عنوان مثال، Spotify از قدرت این تکنولوژی برای پیلوت ویژگی ترجمه صوتی استفاده می‌کند. این ویژگی به پادکست‌ها کمک می‌کند تا با ترجمه آنها به زبان‌های دیگر، داستان‌هایشان را به زبان‌های دیگر و با صدای خودشان گسترش دهند. این استفاده مسئولانه از تکنولوژی صدا به منظور کاهش ریسک‌های مرتبط با آن نشان داده شده است.

تصویر

مدل‌های مبتنی بر تصویر نیز چالش‌های جدیدی را ارائه می‌کنند، از توهم در مورد افراد تا تکیه بر تفسیر مدل از تصاویر در حوزه‌های پرمخاطره. قبل از استقرار گسترده‌تر، ما این مدل را با تیم‌های قرمز برای خطر در حوزه‌هایی مانند افراط‌گرایی و مهارت علمی و مجموعه‌ای متنوع از آزمایش‌کنندگان آلفا آزمایش کردیم. تحقیقات ما به ما این امکان را داد که چند جزئیات کلیدی را برای استفاده مسئولانه هماهنگ کنیم.

کاربران Plus و Enterprise تا 2 هفته دیگر به این دو ویژگی دسترسی خواهند داشت.