در دنیای امروز که استفاده و همچنین سوءاستفاده از هوش مصنوعی زیاد شده است، لازم است که روشهایی برای کنترل ریسکها و خطرها وجود داشته باشد.
در گذشته، OpenAI از روشهای دستی مثل دعوت از کارشناسان خارجی برای شناسایی ریسکها و آسیبپذیریهای سیستم هوش مصنوعی استفاده میکرد. آزمایش مدل DALL·E 2 در سال ۲۰۲۲ یکی از نمونههای این آزمایشهای دستی بود.
بعدها روشهای OpenAI بهبود پیدا کرد و از فرآیندهای خودکار و ترکیبی برای ارزیابی ریسکها استفاده کرد. این رویکردهای جدید باعث شناسایی الگوها و اشتباهات در مقیاس وسیع شد و به ایمنتر شدن مدلها کمک کرد.
روش جدید رد تیمینگ خودکار OpenAI
طبق گفته AINews روش جدید OpenAI با عنوان «رد تیمینگ متنوع و مؤثر با پاداشهای خودکار و یادگیری تقویتی چندمرحلهای» ارائه شد که در آن از روشهای نوآورانه استفاده میشود. این روش نهتنها به ایجاد تنوع در استراتژیهای حمله کمک میکند، بلکه اثربخشی را نیز حفظ میکند. در این روش، سناریوهای مختلفی مثل درخواست مشاوره غیرقانونی شبیهسازی میشود و مدلهای رد تیمینگ میتوانند برای ارزیابی این سناریوها آموزش داده شوند.
محدودیتهای روش جدید OpenAI
- این روش محدود به شناسایی ریسکها در یک بازه زمانی مشخص است و این ریسکها ممکن است با توسعه مدلها تغییر کنند.
- فرآیند رد تیمینگ میتواند بهطور ناخواسته اطلاعات حیاتی و مهمی را افشا کند که احتمال سوءاستفاده توسط افراد مخرب را افزایش میدهد.
- مدیریت این خطرات نیازمند پروتکلهای دقیق و افشای مسئولانه اطلاعات است.
تأثیر و کاربردهای روش رد تیمینگ
OpenAI تأکید دارد که علاوه بر رد تیمینگ، دیدگاههای عمومی در مورد رفتار و سیاستهای ایدئال هوش مصنوعی لحاظ شود تا فناوری با ارزشها و انتظارات جامعه همسو باشد.
یکی از کاربردهای این روش را میتوانید در مدل خانواده o1 ببینید که برای استفاده عمومی آماده شد. این مدلها در برابر سوءاستفادههای احتمالی آزمایش شدند و در حوزههای مختلفی از جمله علوم طبیعی، برنامهریزی حملات واقعی و تحقیقات هوش مصنوعی ارزیابی شدند.
یکی دیگر از اقداماتی که این کمپانی در دست انجام دارد، قابلیت جدید جستجوی ChatGPT است که تا حد زیادی برای گوگل یک خطر جدی حساب میشود.