تا به حال با یک هوش مصنوعی چت کرده‌اید؟‌ آیا حرف‌هایش و نحوه صحبت کردنش،‌ خیلی ماشینی و غیرطبیعی است؟ فکر می‌کنید اگر یک تست برای بررسی پاسخ‌‌های هوش مصنوعی برگزار شود، آیا می‌توانید تشخیص دهید که طرف مقابل شما هوش مصنوعی است یا انسان؟

درباره آزمون تورینگ یا Turing test

آزمون (تست)‌ تورینگ یک آزمون برای سنجش توانایی ماشین در تقلید رفتارهای انسانی است. در این آزمون قرار است توانایی یک ماشین هوش مصنوعی (چت بات)‌ برای انجام رفتارهای مشابه انسان بررسی شود. فکر می‌کنید نتیجه چنین تست‌هایی چگونه باشد؟

یکی از آزمون‌های تورینگ با بیش از ۵۰۰ نفر شرکت کننده نشان داد که ۳۲٪ از مردم نمی‌توانند تفاوت بین هوش مصنوعی و انسان را تشخیص دهند.

در این تست شرکت‌کننده‌ها برای مکالمه دو دقیقه‌ای پشت سیستم نشستند و پس از آن از کاربران خواسته شد حدس بزنند که آیا با یک انسان چت کرده‌اند یا با یک چت بات.

دقت کنید که قرار نیست توانایی چت بات در پاسخ «صحیح» دادن مورد بررسی قرار گیرد،‌ فقط مهم است که چقدر جواب‌های چت بات مشابه انسان است.

در این رقابت،‌ GPT-4، GPT-3.5، و یک انسان واقعی به عنوان گفتگوکنندگان حضور داشتند.

استراتژی کاربران برای تشخیص بهتر

شرکت‌کنندگان برای اینکه بفهمند با یک انسان صحبت می‌کنند یا یک چت بات، از استراتژی‌های مختلفی استفاده کردند. مثلا:

  • پرسیدن سؤالات شخصی (به عنوان مثال، اهل کجا هستید؟) با این فرض که چت بات‌ هوش مصنوعی نمی‌تواند حرف خاصی بزند و نمی‌داند از کجا آمده!
  • سؤال در مورد رویدادهای خبری اخیر، نتایج ورزشی، آب و هوای امروز، ترندهای اخیر شبکه‌های اجتماعی، تاریخ و زمان و غیره، با فرض اینکه چت بات ها از رویدادهای جاری و به موقع آگاه نیستند.
  • پرسیدن سؤالات احساسی،‌ فلسفی یا اخلاقی،‌ چراکه چت بات احتمالا قادر به بیان احساس و عاطفه نیست! یا این فرض که اگر طرف مقابل بیش از حد مؤدب و مهربان بود، احتمالاً یک چت بات است!
  • بررسی زبانی و دستوری جملات؛‌ کاربران فکر می‌کردند چت بات هوش مصنوعی اشتباه تایپی یا اشتباهات گرامری ندارد و از زبان عامیانه استفاده نمی‌کند؛ و اگر چنین غلط‌هایی مشاهده شد پس حتما انسان است.

نتیجه تست تورینگ

نتیجه تست حیرت انگیز بود! کاربران در ۳۲٪ مواقع نتوانستند تشخیص درستی داشته باشند! اما چرا؟ چون اکثر استراتژی‌های کاربران (که در بالا نام بردیم)‌ برای هوش مصنوعی مشخص و نمایان بود.

چت بات‌ها به اینترنت متصل بودند و از رویدادهای اخیر آگاه بودند. آن‌ها برای اشتباهات املایی و استفاده از کلمات عامیانه آموزش دیده بودند. و داستان‌های شخصی زیادی را در داده های آموزشی خود دیده‌اند، بنابراین می‌توانند به سوالات شخصی پاسخ دهند. حتی بعضی آموزش دیده‌اند که شخصیت و هدف منحصربه‌فردی داشته باشند.

اکثر استراتژی‌های کاربران برای هوش مصنوعی مشخص و نمایان بود.

نتیجه تست تورینگ

مدل GPT-4: در ۵۴ درصد موارد، کاربران فکر کردند که طرف مقابلشان یک انسان است و هم سن و سال خودشان است! این مدل در تقلید رفتارهای انسانی بسیار خوب عمل کرد.

بیشتر بخوانید: چت جی پی تی 4 چیست

انسان واقعی: در ۷۴٪ موارد،‌ کاربران به درستی تشخیص دادند که طرف مقابل یک انسان است. اما با این حال ۳۲٪ کاربران به اشتباه فکر کردند که طرف مقابل هوش مصنوعی است! این امر نشان‌دهنده قدرت فوق‌العاده ChatGPT در شبیه‌سازی رفتار و گفتار انسان است.

مدل GPT-3.5: این نسخه از ChatGPT نیز عملکردی چشمگیر داشت و توانست حدود ۵۰ درصد موارد، کاربران را متقاعد کند که با یک انسان واقعی در حال گفتگو هستند.

تست تورینگ یک تست خیلی دقیق و تخصصی نیست و نتایج گاهی اوقات با خطاهای شناختی شرکت کنندگان همراه است. اما بااین حال نشان دهنده پیشرفت ویژه هوش مصنوعی است و حتی این احتمال که نسل‌های بعدی هوش مصنوعی ممکن است بسیار بسیار هم پیشرفته‌تر شوند.

سم آلتمن، مدیرعامل OpenAI هم در صحبت‌های اخیرش به هوش مصنوعی GPT-5 اشاره کرده و گفته این مدل یک جهش بزرگ و شگفت‌انگیز در صنعت خواهد بود!