گزارش جدیدی از Copyleaks نشان می‌دهد که 60 درصد از خروجی‌های GPT-3.5 حاوی نوعی سرقت ادبی است. این مینی بلاگ نامبرلند را با ما بخوانید تا درباره معنای حرفه‌ای سرقت ادبی و نحوه کشف محتوای دزدی برایتان بگوییم.

chatgpt plagiarism

از زمان ظهور چت بات های هوش مصنوعی بسیاری از دانشجویان، نویسندگان، و دیگر افراد شاغل در حوزه‌های دیگر از چت جی پی تی برای کمک در نوشتن متن، ترجمه یا ویرایش متون خود استفاده کرده‌اند. حتی بعضی افراد فکر می کردند دیگر دوران “نوشتن توسط انسان” تمام شده چراکه هوش مصنوعی می‌تواند دقیقا مثل یک انسان بنویسد؛ اما مشکل همینجاست: هوش مصنوعی دقیقا مثل یک انسان می‌نویسد!

مالکیت معنوی محتوا

هر متنی نوشته می‌شود به مثابه یک اثر هنری است که صاحبش هم نویسنده است. تمام اشعار، ترانه‌ها، رمان‌ها، داستان‌ها، متون تحقیقاتی و… متعلق به صاحبانشان است و اگر کسی قسمتی از این متن را در اثر خود تکرار کند موظف به ذکر نام نویسنده اصلی است.
اما هوش مصنوعی چنین کاری نمی‌کند، بلکه اتفاقا آموزش دیده که از تمام مطالب موجود در اینترنت برای تولید یک متن جدید استفاده کند، بدون اینکه اشاره کند که این متن را از کجا استخراج کرده. این موضوع پیش از این هم باعث نارضایتی و شکایت جمعی از نویسندگان از هوش مصنوعی شده بود، مثلا نویسندگان نیویورک تایمز از هوش مصنوعی چت جی‌پی‌تی برای سرقت ادبی از محتواهایشان شکایت کرده بودند.

ابزاری که مچ چت جی‌پی‌تی را گرفت خودش هوش مصنوعی است!

سرقت ادبی چت جی پی تی3.5 توسط Copyleaks مشخص شد. Copyleaks یک ابزار تجزیه و تحلیل متن مبتنی بر هوش مصنوعی است که مدتها قبل از ظهور ChatGPT وجود داشت و توسط ناشران استفاده می‌شد. در یک پژوهش گسترده این ابزار نشان داد که حدود 60% خروجی های GPT-3.5 به نوعی سرقت ادبی از متون دارای حق امیتاز هستند.

توجه داشته باشید که سرقت ادبی شکل‌های مختلفی دارد و فقط به معنای کپی و جایگزاری یک سری عبارت نمی شود.

سرقت ادبی شکل‌های مختلفی دارد

این ابزار از یک روش امتیازدهی اختصاصی استفاده می‌کند که در آن محتوای موردنظر را می گیرد و سپس از نظر شباهت متن با دیگر متون، تغییرات جزئی، بازنویسی و سایر عوامل به محتوا «امتیاز» اختصاص می‌دهد.

Copyleaks در این پژوهش از چت جی‌پی‌تی 3.5 حدود 1000 خروجی گرفت، هر کدام حدود 400 کلمه، در 26 موضوع مختلف. نتیجه متاسفانه بسیار بد بود!
محتوای تولید شده در حوزه علوم کامپیوتر (100٪) دزدی بود؛ پس از آن فیزیک (92٪) و روانشناسی (88٪) سرقتی بود.
کمترین نمرات شباهت هم در حوزه تئاتر (0.9%)، علوم انسانی (2.8%) و زبان انگلیسی (5.4%) مشاهده شد.

پاسخ OpenAI

به نقل از axios لیندسی هلد، سخنگوی OpenAI، در بیانیه‌ای اینطور پاسخ داد: «مدل‌های ما برای یادگیری مفاهیم طراحی و آموزش داده شدند. ما برای محدود کردن چنین اتفاقاتی اقداماتی را در نظر گرفته‌ایم و استفاده عمدی از محتواهای دیگران توسط مدل هایمان ممنوع است.»