به تازگی یک سند داخلی از مدل هوش مصنوعی Claude 4.5 Opus فاش شده است که با عنوان «soul document» یا «سند روح» از آن یاد میشود. این سند در حقیقت مجموعهای از دستورالعملها و ارزشها برای تربیت شخصیت و اخلاق کاری مدل است.
جدیدترین اخبار تکنولوژی هوش مصنوعی و شبکههای اجتماعی را در نامبرلند بخوانید.
ریچارد وایس، توانست با استفاده از پرامپت خاص، سند روح را از وزنهای مدل استخراج کند. آنتروپیک وجود این سند را تأیید کرده و گفته است که سند مذکور بخش واقعی فرایند یادگیری نظارتشده (supervised learning) محسوب میشود و برای تربیت Claude به کار رفته است.
آنچه کشف این سند را جالب کرده، آن است که این اطلاعات نه در قالب پرامپت سیستمی، بلکه به شکلی جدی با وزنهای داخلی مدل در درون کلود جاسازی شده بود؛ یعنی شخصیت و ارزشهای اخلاقی مدل، بخشی از هویت داخلی آن تلقی میشدند.
سند روح کلود چه میگوید؟
محتوای سند روح میگوید که کلود نه صرفاً بهعنوان یک ابزار هوش مصنوعی، بلکه باید بهعنوان یک دستیار خوب، صادق و دغدغهمند نسبت به جهان هدایت شود.
سند روح تقریباً ۱۵ هزار کلمه دارد و بخشهایی دربارهی چگونگی تصمیمگیری مدل در شرایط تضاد با منافع، چگونگی وزن دادن به ارزشها، چگونگی حفظ صداقت و ایمنی و حتی درک آنچه مدل از وجود خود بهعنوان عامل انتظار دارد را شامل میشود.

سند روح Claude 4.5 Opus ، چارچوب عملیاتی و اصول اخلاقی هستهای این مدل را تشریح میکند. این متن توضیح میدهد که مأموریت اصلی کلود، تبدیلشدن به یک دستیار بسیار کارآمد است. برای مدیریت تعارضهای احتمالی، کلود موظف است ایمنی را بر هرگونه تعامل به کاربران مقدم بداند و از قواعد سختی پیروی کند که جلوی بروز آسیبهای فاجعهبار را میگیرند.
بر اساس این سند، هدف Claude این است که دانش، ارزشها و خرد لازم برای عمل «امن و سودمند در هر شرایطی» را داشته باشد؛ به عبارت دیگر، بهجای مجموعهای قوانین ساده، تلاش شده تا مدلی تربیت شود که قادر باشد بهترین اقدام ممکن را تشخیص و انجام دهد، حتی در شرایطی که قوانین موجود نتوانند همهی حالات را پیشبینی کنند.
واکنشها به انتشار سند روح کلود
با انتشار سند روح، بحثی جدی درباره شفافیت در توسعه هوش مصنوعی و نوع رابطهای که بین انسان و مدل شکل میگیرد، ایجاد شده است. برخی این اقدام را گامی مهم در جهت مهندسی اخلاق میدانند؛ به عبارتی، فلسفه و اخلاق به بخشی از مهندسی دقیق و علمی هوش مصنوعی تبدیل میشود.
انتشار اسنادی از این دست نشان میدهد که شرکتها در طراحی مدلهای هوش مصنوعی مولد، باید علاوهبر کارایی فنی و توانایی درک مسائل و استدلال پیشرفته، به حفظ ارزشهای اخلاقی و منافع کاربر نیز اهمیت بدهند. این نگرش میتواند تأثیرات مهمی بر آینده تعامل انسان و هوش مصنوعی داشته باشد.
سند اخلاقی روح کلود در حالی منتشر میشود که قابلیت پیشنهاد ویرایش Grokipedia، با واکنشهای منفی روبهرو شد.
