به گزارش سرویس بین الملل پایگاه خبری عدل البرز به نقل از hls، مدلهای زبان بزرگ (معروف به LLM) مدلهای مبتنی بر یادگیری عمیق هستند که برای تولید، خلاصهسازی، ترجمه و پردازش متون نوشته شده آموزش دیدهاند. با این که چنین مدل هایی به طور گسترده مورد استفاده قرار می گیرند، در برابر حملات سایبری آسیب پذیر هستند که باعث می شود پاسخ های غیر قابل اعتماد و حتی توهین آمیزی ایجاد کنند.
در یک مطالعه جدید، تأثیر بالقوه این حملات و همچنین تکنیک هایی را که می تواند از این مدل ها در برابر آنها محافظت کند، بررسی شده است. این مطالعه، یک تکنیک جدید الهام گرفته از روانشناسی را معرفی می کند که می تواند به محافظت از چت بات های مبتنی بر LLM در برابر حملات سایبری کمک کند.
هدف اصلی محققان این مطالعه، برجسته کردن تأثیری ست که حملات جیلبریک میتواند بر روی چت بات هایی مانند ChatGPT داشته باشند و استراتژیهای دفاعی مناسب در برابر این حملات را معرفی می کنند. حملات جیلبریک از دستورات تبعیض آمیز برای دور زدن تدابیر اخلاقی ChatGPT و ایجاد پاسخهای مضر استفاده میکنند و اساساً از آسیبپذیریهای LLM برای دور زدن محدودیتهای تعیینشده توسط توسعهدهندگان و ایجاد پاسخهای مدلی که معمولاً محدود میشوند، سوء استفاده میکنند.
محققان ابتدا مجموعه داده ای را گردآوری کردند که شامل ۵۸۰ نمونه از دستورات جیلبریک بوده که برای دور زدن محدودیت هایی طراحی شده بودند که از ChatGPT جهت ارائه پاسخ های «غیر اخلاقی» جلوگیری می کند، از جمله متون غیرقابل اعتماد که می تواند به اطلاعات نادرست یا محتوای توهین آمیز دامن بزند. هنگام آزمایش این اعلان ها، آنها متوجه شدند که چت بات اغلب در “تله” آنها می افتد و محتوای مشکل ساز تولید می کند.
آنها سپس یک تکنیک ساده و مؤثر ابداع کردند که از مفهوم روانشناختی خود یادآوری الهام میگیرد (الگوهایی که به افراد کمک میکند مواردی مانند وظایف یا رویدادها را به خاطر بسپارند). رویکرد دفاعی “خود یادآوری حالت سیستم” نامیده می شود که به ChatGPT یادآوری می کند، پاسخ هایی که ارائه می دهد باید از دستورالعمل های خاصی پیروی کنند.
این تکنیک درخواست کاربر را در یک پیام سیستمی قرار می دهد و به ChatGPT یادآوری میکند که مسئولانه پاسخ دهد. نتایج تجربی نشان می دهد که خود یادآوری به طور قابل توجهی میزان موفقیت حملات جیلبریک علیه ChatGPT را از ۶۷٫۲۱٪ به ۱۹٫۳۴٪ کاهش می دهد.
تاکنون، این تکنیک با استفاده از مجموعه دادههای محققان آزمایش شده و به نتایج امیدوارکنندهای دست یافته که میزان موفقیت حملات را کاهش میدهد اما از همه آنها جلوگیری نمیکند. با این وجود، این تکنیک جدید میتواند برای کاهش آسیبپذیری LLMها در برابر این حملات بهبود یابد و به طور بالقوه الهامبخش توسعه سایر استراتژیهای دفاعی مشابه باشد.
پایان پیام/
بیشتر بخوانید: آسیب پذیری چت بات های هوش مصنوعی





















