در دنیای امروز که استفاده و همچنین سوءاستفاده از هوش مصنوعی زیاد شده است، لازم است که روش‌هایی برای کنترل ریسک‌ها و خطرها وجود داشته باشد.

 در گذشته،  OpenAI از روش‌های دستی مثل دعوت از کارشناسان خارجی برای شناسایی ریسک‌ها و آسیب‌پذیری‌های سیستم هوش مصنوعی استفاده می‌کرد. آزمایش مدل DALL·E 2 در سال ۲۰۲۲ یکی از نمونه‌های این آزمایش‌های دستی بود.

بعدها روش‌های OpenAI بهبود پیدا کرد و از فرآیندهای خودکار و ترکیبی برای ارزیابی ریسک‌ها استفاده کرد. این رویکردهای جدید باعث شناسایی الگوها و اشتباهات در مقیاس وسیع شد و به ایمن‌تر شدن مدل‌ها کمک کرد.

روش جدید رد تیمینگ خودکار OpenAI

 طبق گفته AINews روش جدید OpenAI با عنوان «رد تیمینگ متنوع و مؤثر با پاداش‌های خودکار و یادگیری تقویتی چندمرحله‌ای» ارائه شد که در آن از روش‌های نوآورانه استفاده می‌شود. این روش نه‌تنها به ایجاد تنوع در استراتژی‌های حمله کمک می‌کند، بلکه اثربخشی را نیز حفظ می‌کند. در این روش، سناریوهای مختلفی مثل درخواست مشاوره غیرقانونی شبیه‌سازی می‌شود و مدل‌های رد تیمینگ می‌توانند برای ارزیابی این سناریوها آموزش داده شوند.

محدودیت‌های روش جدید OpenAI

  • این روش محدود به شناسایی ریسک‌ها در یک بازه زمانی مشخص است و این ریسک‌ها ممکن است با توسعه مدل‌ها تغییر کنند.
  • فرآیند رد تیمینگ می‌تواند به‌طور ناخواسته اطلاعات حیاتی و مهمی را افشا کند که احتمال سوءاستفاده توسط افراد مخرب را افزایش می‌دهد.
  • مدیریت این خطرات نیازمند پروتکل‌های دقیق و افشای مسئولانه اطلاعات است.

 پس از پایان رد تیمینگ، داده‌ها ارزیابی می‌شوند تا مشخص شود آیا با سیاست‌های جدید سازگار هستند یا نیاز به تغییرات دارند. این فرآیند مبنای ارزیابی‌های آینده قرار می‌گیرد.

تأثیر و کاربردهای روش رد تیمینگ

OpenAI  تأکید دارد که علاوه بر رد تیمینگ، دیدگاه‌های عمومی در مورد رفتار و سیاست‌های ایدئال هوش مصنوعی لحاظ شود تا فناوری با ارزش‌ها و انتظارات جامعه همسو باشد.

یکی از کاربردهای این روش را می‌توانید در مدل خانواده o1 ببینید که برای استفاده عمومی آماده شد. این مدل‌ها در برابر سوءاستفاده‌های احتمالی آزمایش شدند و در حوزه‌های مختلفی از جمله علوم طبیعی، برنامه‌ریزی حملات واقعی و تحقیقات هوش مصنوعی ارزیابی شدند.

یکی دیگر از اقداماتی که این کمپانی در دست انجام دارد، قابلیت جدید جستجوی ChatGPT است که تا حد زیادی برای گوگل یک خطر جدی حساب می‌شود.