به گزارش سرویس بین الملل پایگاه خبری عدل البرز به نقل از Interesting Engineering، هدف کلی این است که یک ابزار برای محققان فراهم شود تا خطرات مرتبط با مدلهای زبانی بزرگ (LLMs) که برای اهداف مخرب استفاده میشوند را ارزیابی و رفع کنند.
در میان نگرانیها درباره احتمال ایجاد سلاحها یا انجام حملات جمعی توسط هوش مصنوعی و مدلهای زبانی بزرگ (LLMs)، یک گروه از متخصصان مجموعهای از دادهها را ایجاد کرده اند که نه تنها یک روش برای بررسی اینکه آیا یک مدل هوش مصنوعی اطلاعات خطرناک دارد یا خیر را ارائه میدهد، بلکه راهی را برای حذف آن اطلاعات در حالی که قسمت زیادی از مدل را تغییر نمیدهد، هم فراهم میکند. این مجموعه داده پروکسی سلاحهای کشتار جمعی (WMDP) نامیده میشود.
محققان با کارشناسانی در زمینه امنیت زیستی، سلاح های شیمیایی و امنیت سایبری مشورت کردند که به نوبه خود تمام راه های احتمالی آسیب در زمینه هایشان را فهرست بندی کردند. سپس محققان ۴۰۰۰ سوال چند گزینه ای را برای آزمایش دانش افراد در مورد چگونگی ایجاد این آسیب ها ایجاد کردند.
علاوه بر مجموعه داده، این تیم همچنین یک روش یادگیری جدید به نام CUT را معرفی کرده است که اطلاعات خطرناک را از LLM ها حذف می کند و در عین حال توانایی های کلی آنها را در سایر زمینه ها (مانند زیست شناسی یا علوم کامپیوتر) حفظ می کند.
دو هدف اصلی برای مجموعه داده WMDP وجود دارد: روشی برای ارزیابی میزان درک LLMها از موضوعات خطرناک، و معیاری برای توسعه روشهایی برای حذف این اطلاعات از مدلها.
مسئله این است که روشهای فعلی شرکتهای فناوری مبتنی بر هوش مصنوعی برای کنترل آنچه که سیستمهایشان تولید میکنند بسیار ساده می باشد و آزمایشهایی که برای بررسی اینکه آیا یک مدل هوش مصنوعی ممکن است خطرناک باشد یا نه، زمان بر و بسیار گران می باشند.
محققان امیدوارند که این معیار به عنوان یکی از معیارهای اصلی قابل قبول توسط تمام توسعهدهندگان منبع باز به عنوان معیارهای اصلی مورد استفاده قرار گیرد، که حداقل یک چارچوب خوب برای تشویق آنها برای کمینه کردن مسائل ایمنی فراهم میکند.
پایان پیام/
بیشتر بخوانید: هوش مصنوعی و تهدید سلاح های بیولوژیکی





















