گزارش جدیدی از Copyleaks نشان میدهد که 60 درصد از خروجیهای GPT-3.5 حاوی نوعی سرقت ادبی است. این مینی بلاگ نامبرلند را با ما بخوانید تا درباره معنای حرفهای سرقت ادبی و نحوه کشف محتوای دزدی برایتان بگوییم.
از زمان ظهور چت بات های هوش مصنوعی بسیاری از دانشجویان، نویسندگان، و دیگر افراد شاغل در حوزههای دیگر از چت جی پی تی برای کمک در نوشتن متن، ترجمه یا ویرایش متون خود استفاده کردهاند. حتی بعضی افراد فکر می کردند دیگر دوران “نوشتن توسط انسان” تمام شده چراکه هوش مصنوعی میتواند دقیقا مثل یک انسان بنویسد؛ اما مشکل همینجاست: هوش مصنوعی دقیقا مثل یک انسان مینویسد!
مالکیت معنوی محتوا
هر متنی نوشته میشود به مثابه یک اثر هنری است که صاحبش هم نویسنده است. تمام اشعار، ترانهها، رمانها، داستانها، متون تحقیقاتی و… متعلق به صاحبانشان است و اگر کسی قسمتی از این متن را در اثر خود تکرار کند موظف به ذکر نام نویسنده اصلی است.
اما هوش مصنوعی چنین کاری نمیکند، بلکه اتفاقا آموزش دیده که از تمام مطالب موجود در اینترنت برای تولید یک متن جدید استفاده کند، بدون اینکه اشاره کند که این متن را از کجا استخراج کرده. این موضوع پیش از این هم باعث نارضایتی و شکایت جمعی از نویسندگان از هوش مصنوعی شده بود، مثلا نویسندگان نیویورک تایمز از هوش مصنوعی چت جیپیتی برای سرقت ادبی از محتواهایشان شکایت کرده بودند.
ابزاری که مچ چت جیپیتی را گرفت خودش هوش مصنوعی است!
سرقت ادبی چت جی پی تی3.5 توسط Copyleaks مشخص شد. Copyleaks یک ابزار تجزیه و تحلیل متن مبتنی بر هوش مصنوعی است که مدتها قبل از ظهور ChatGPT وجود داشت و توسط ناشران استفاده میشد. در یک پژوهش گسترده این ابزار نشان داد که حدود 60% خروجی های GPT-3.5 به نوعی سرقت ادبی از متون دارای حق امیتاز هستند.
توجه داشته باشید که سرقت ادبی شکلهای مختلفی دارد و فقط به معنای کپی و جایگزاری یک سری عبارت نمی شود.
این ابزار از یک روش امتیازدهی اختصاصی استفاده میکند که در آن محتوای موردنظر را می گیرد و سپس از نظر شباهت متن با دیگر متون، تغییرات جزئی، بازنویسی و سایر عوامل به محتوا «امتیاز» اختصاص میدهد.
Copyleaks در این پژوهش از چت جیپیتی 3.5 حدود 1000 خروجی گرفت، هر کدام حدود 400 کلمه، در 26 موضوع مختلف. نتیجه متاسفانه بسیار بد بود!
محتوای تولید شده در حوزه علوم کامپیوتر (100٪) دزدی بود؛ پس از آن فیزیک (92٪) و روانشناسی (88٪) سرقتی بود.
کمترین نمرات شباهت هم در حوزه تئاتر (0.9%)، علوم انسانی (2.8%) و زبان انگلیسی (5.4%) مشاهده شد.
پاسخ OpenAI
به نقل از axios لیندسی هلد، سخنگوی OpenAI، در بیانیهای اینطور پاسخ داد: «مدلهای ما برای یادگیری مفاهیم طراحی و آموزش داده شدند. ما برای محدود کردن چنین اتفاقاتی اقداماتی را در نظر گرفتهایم و استفاده عمدی از محتواهای دیگران توسط مدل هایمان ممنوع است.»