محافظت از ChatGPT در برابر حملات سایبری

کد خبر : 18601
30 دی 1402 - 8:34

در یک مطالعه جدید، تأثیر بالقوه این حملات و همچنین تکنیک هایی را که می تواند از این مدل ها در برابر آنها محافظت کند، بررسی شده است. این مطالعه، یک تکنیک جدید الهام گرفته از روانشناسی را معرفی می کند که می تواند به محافظت از چت بات های مبتنی بر LLM در برابر حملات سایبری کمک کند.

به گزارش سرویس بین الملل پایگاه خبری عدل البرز به نقل از hls، مدل‌های زبان بزرگ (معروف به LLM) مدل‌های مبتنی بر یادگیری عمیق هستند که برای تولید، خلاصه‌سازی، ترجمه و پردازش متون نوشته شده آموزش دیده‌اند. با این که چنین مدل هایی به طور گسترده مورد استفاده قرار می گیرند، در برابر حملات سایبری آسیب پذیر هستند که باعث می شود پاسخ های غیر قابل اعتماد و حتی توهین آمیزی ایجاد کنند.

هدف اصلی محققان این مطالعه، برجسته کردن تأثیری ست که حملات جیلبریک می‌تواند بر روی چت بات هایی مانند ChatGPT داشته باشند و استراتژی‌های دفاعی مناسب در برابر این حملات را معرفی می کنند. حملات جیلبریک از دستورات تبعیض آمیز برای دور زدن تدابیر اخلاقی ChatGPT و ایجاد پاسخ‌های مضر استفاده می‌کنند و اساساً از آسیب‌پذیری‌های LLM برای دور زدن محدودیت‌های تعیین‌شده توسط توسعه‌دهندگان و ایجاد پاسخ‌های مدلی که معمولاً محدود می‌شوند، سوء استفاده می‌کنند.

محققان ابتدا مجموعه داده ای را گردآوری کردند که شامل ۵۸۰ نمونه از دستورات جیلبریک بوده که برای دور زدن محدودیت هایی طراحی شده بودند که از ChatGPT جهت ارائه پاسخ های «غیر اخلاقی» جلوگیری می کند، از جمله متون غیرقابل اعتماد که می تواند به اطلاعات نادرست یا محتوای توهین آمیز دامن بزند. هنگام آزمایش این اعلان ها، آنها متوجه شدند که چت بات اغلب در “تله” آنها می افتد و محتوای مشکل ساز تولید می کند.

آنها سپس یک تکنیک ساده و مؤثر ابداع کردند که از مفهوم روانشناختی خود یادآوری الهام می‌گیرد (الگوهایی که به افراد کمک می‌کند مواردی مانند وظایف یا رویدادها را به خاطر بسپارند). رویکرد دفاعی “خود یادآوری حالت سیستم” نامیده می شود که به ChatGPT یادآوری می کند، پاسخ هایی که ارائه می دهد باید از دستورالعمل های خاصی پیروی کنند.

این تکنیک درخواست کاربر را در یک پیام سیستمی قرار می دهد و به ChatGPT یادآوری می‌کند که مسئولانه پاسخ دهد. نتایج تجربی نشان می دهد که خود یادآوری به طور قابل توجهی میزان موفقیت حملات جیلبریک علیه ChatGPT را از ۶۷٫۲۱٪ به ۱۹٫۳۴٪ کاهش می دهد.

تاکنون، این تکنیک با استفاده از مجموعه داده‌های محققان آزمایش شده و به نتایج امیدوارکننده‌ای دست یافته که میزان موفقیت حملات را کاهش می‌دهد اما از همه آنها جلوگیری نمی‌کند. با این وجود، این تکنیک جدید می‌تواند برای کاهش آسیب‌پذیری LLMها در برابر این حملات بهبود یابد و به طور بالقوه الهام‌بخش توسعه سایر استراتژی‌های دفاعی مشابه باشد.

پایان پیام/

بیشتر بخوانید: آسیب پذیری چت بات های هوش مصنوعی

لینک کوتاه : https://adlealborz.ir/?p=18601