تا به حال با یک هوش مصنوعی چت کردهاید؟ آیا حرفهایش و نحوه صحبت کردنش، خیلی ماشینی و غیرطبیعی است؟ فکر میکنید اگر یک تست برای بررسی پاسخهای هوش مصنوعی برگزار شود، آیا میتوانید تشخیص دهید که طرف مقابل شما هوش مصنوعی است یا انسان؟
درباره آزمون تورینگ یا Turing test
آزمون (تست) تورینگ یک آزمون برای سنجش توانایی ماشین در تقلید رفتارهای انسانی است. در این آزمون قرار است توانایی یک ماشین هوش مصنوعی (چت بات) برای انجام رفتارهای مشابه انسان بررسی شود. فکر میکنید نتیجه چنین تستهایی چگونه باشد؟
یکی از آزمونهای تورینگ با بیش از ۵۰۰ نفر شرکت کننده نشان داد که ۳۲٪ از مردم نمیتوانند تفاوت بین هوش مصنوعی و انسان را تشخیص دهند.
در این تست شرکتکنندهها برای مکالمه دو دقیقهای پشت سیستم نشستند و پس از آن از کاربران خواسته شد حدس بزنند که آیا با یک انسان چت کردهاند یا با یک چت بات.
دقت کنید که قرار نیست توانایی چت بات در پاسخ «صحیح» دادن مورد بررسی قرار گیرد، فقط مهم است که چقدر جوابهای چت بات مشابه انسان است.
در این رقابت، GPT-4، GPT-3.5، و یک انسان واقعی به عنوان گفتگوکنندگان حضور داشتند.
استراتژی کاربران برای تشخیص بهتر
شرکتکنندگان برای اینکه بفهمند با یک انسان صحبت میکنند یا یک چت بات، از استراتژیهای مختلفی استفاده کردند. مثلا:
- پرسیدن سؤالات شخصی (به عنوان مثال، اهل کجا هستید؟) با این فرض که چت بات هوش مصنوعی نمیتواند حرف خاصی بزند و نمیداند از کجا آمده!
- سؤال در مورد رویدادهای خبری اخیر، نتایج ورزشی، آب و هوای امروز، ترندهای اخیر شبکههای اجتماعی، تاریخ و زمان و غیره، با فرض اینکه چت بات ها از رویدادهای جاری و به موقع آگاه نیستند.
- پرسیدن سؤالات احساسی، فلسفی یا اخلاقی، چراکه چت بات احتمالا قادر به بیان احساس و عاطفه نیست! یا این فرض که اگر طرف مقابل بیش از حد مؤدب و مهربان بود، احتمالاً یک چت بات است!
- بررسی زبانی و دستوری جملات؛ کاربران فکر میکردند چت بات هوش مصنوعی اشتباه تایپی یا اشتباهات گرامری ندارد و از زبان عامیانه استفاده نمیکند؛ و اگر چنین غلطهایی مشاهده شد پس حتما انسان است.
نتیجه تست تورینگ
نتیجه تست حیرت انگیز بود! کاربران در ۳۲٪ مواقع نتوانستند تشخیص درستی داشته باشند! اما چرا؟ چون اکثر استراتژیهای کاربران (که در بالا نام بردیم) برای هوش مصنوعی مشخص و نمایان بود.
چت باتها به اینترنت متصل بودند و از رویدادهای اخیر آگاه بودند. آنها برای اشتباهات املایی و استفاده از کلمات عامیانه آموزش دیده بودند. و داستانهای شخصی زیادی را در داده های آموزشی خود دیدهاند، بنابراین میتوانند به سوالات شخصی پاسخ دهند. حتی بعضی آموزش دیدهاند که شخصیت و هدف منحصربهفردی داشته باشند.
نتیجه تست تورینگ
مدل GPT-4: در ۵۴ درصد موارد، کاربران فکر کردند که طرف مقابلشان یک انسان است و هم سن و سال خودشان است! این مدل در تقلید رفتارهای انسانی بسیار خوب عمل کرد.
انسان واقعی: در ۷۴٪ موارد، کاربران به درستی تشخیص دادند که طرف مقابل یک انسان است. اما با این حال ۳۲٪ کاربران به اشتباه فکر کردند که طرف مقابل هوش مصنوعی است! این امر نشاندهنده قدرت فوقالعاده ChatGPT در شبیهسازی رفتار و گفتار انسان است.
مدل GPT-3.5: این نسخه از ChatGPT نیز عملکردی چشمگیر داشت و توانست حدود ۵۰ درصد موارد، کاربران را متقاعد کند که با یک انسان واقعی در حال گفتگو هستند.
تست تورینگ یک تست خیلی دقیق و تخصصی نیست و نتایج گاهی اوقات با خطاهای شناختی شرکت کنندگان همراه است. اما بااین حال نشان دهنده پیشرفت ویژه هوش مصنوعی است و حتی این احتمال که نسلهای بعدی هوش مصنوعی ممکن است بسیار بسیار هم پیشرفتهتر شوند.
سم آلتمن، مدیرعامل OpenAI هم در صحبتهای اخیرش به هوش مصنوعی GPT-5 اشاره کرده و گفته این مدل یک جهش بزرگ و شگفتانگیز در صنعت خواهد بود!