سرور مجازی NVMe

آموزش LLMS برای خودکشی کردن زبان آنها

توسط مهران در فروردین 26, 1404

زمان لازم برای مطالعه: 7 دقیقه

همانطور که از کودکی بالغ می شویم ، واژگان ما – و همچنین راه های استفاده از آن – رشد می کند و تجربیات ما ثروتمندتر می شود و به ما این امکان را می دهد تا با ویژگی و قصد با دیگران فکر کنیم ، استدلال کنیم و با دیگران ارتباط برقرار کنیم. بر این اساس ، انتخاب های کلمه ما برای هماهنگی با ارزش های شخصی ، اخلاق ، هنجارهای فرهنگی و دیدگاه ها تکامل می یابد. با گذشت زمان ، بیشتر ما یک “راهنمای” داخلی را ایجاد می کنیم که ما را قادر می سازد تا زمینه را در پشت مکالمه بیاموزیم. همچنین غالباً ما را از به اشتراک گذاشتن اطلاعات و احساسات که مضر یا نامناسب است ، دور می کند. همانطور که معلوم است ، مدل های بزرگ زبان (LLM) – که آموزش دیده اند روی مجموعه داده های گسترده و عمومی و بنابراین غالباً دارای تعصب و زبان سمی پخته شده است – می توانند ظرفیت مشابهی را برای تعدیل زبان خود به دست آورند.

یک روش جدید از MIT ، آزمایشگاه MIT-IBM Watson AI ، و IBM Research ، به نام نمونه گیری خودکار خودکشی (SASA) ، به LLM ها اجازه می دهد تا بدون قربانی کردن تسلط ، خروجی های خود را سم زدایی کنند.

بر خلاف سایر روشهای سم زدایی ، این الگوریتم رمزگشایی مرز بین زیر فضای سمی/غیر سمی را در بازنمایی داخلی خود LLM ، بدون تغییر پارامترهای مدل ، نیاز به آموزش مجدد یا یک مدل پاداش خارجی می آموزد. سپس ، در حین استنباط ، الگوریتم مقدار سمیت عبارت جزئی تولید شده را ارزیابی می کند: نشانه ها (کلمات) که قبلاً تولید و پذیرفته شده اند ، به همراه هر یک از نشانه های جدید بالقوه که به طور منطقی می تواند برای نزدیکی به مرز طبقه بندی کننده انتخاب شود. در مرحله بعد ، این یک گزینه Word را انتخاب می کند که این عبارت را در فضای غیر سمی قرار می دهد ، در نهایت روشی سریع و کارآمد برای تولید زبان کمتر سمی ارائه می دهد.

“ما می خواستیم با هر مدل زبان موجود راهی پیدا کنیم [that]، در طول نسل process، رمزگشایی می تواند در معرض برخی از ارزشهای انسانی باشد. نمونه ای که در اینجا انجام می دهیم سمیت است.

نویسندگان KO شامل لوکا دانیل ، استاد گروه MIT مهندسی برق و علوم کامپیوتر (EEC) ، عضو آزمایشگاه MIT-IBM Watson AI و مشاور فارغ التحصیل KO است. و چندین عضو آزمایشگاه MIT-IBM Watson AI و/یا IBM Research-Pin-Yu Chen ، Payel Das ، Youssef Mroueh ، Soham Dan ، Georgios Kollias ، Subhajit Chaudhury و Tejaswini Pedapati. این کار در کنفرانس بین المللی ارائه خواهد شد روی یادگیری بازنمایی.

پیدا کردن “GuardRails”

منابع آموزشی پشت LLMS تقریباً همیشه شامل محتوایی است که از فضاهای عمومی مانند اینترنت و سایر مجموعه داده های موجود به راحتی جمع آوری می شود. به همین ترتیب ، کلمات نفرین و زورگویی/زبان غیرقابل تحمل یک مؤلفه است ، اگرچه برخی از آن در زمینه آثار ادبی است. سپس نتیجه می گیرد که LLM ها می توانند ذاتاً محتوای خطرناک و/یا مغرضانه را تولید کنند – یا فریب داده می شوند ، که اغلب حاوی کلمات مخالف یا زبان نفرت انگیز است ، حتی از طرف های معصوم. علاوه بر این ، مشخص شده است که آنها می توانند زبانی را یاد بگیرند و تقویت کنند که برای بسیاری از برنامه ها و کارهای پایین دست ترجیح داده نمی شود و حتی مضر نیست – که منجر به نیاز به کاهش یا استراتژی های تصحیح می شود.

روش های زیادی برای دستیابی به تولید زبان قوی وجود دارد که منصفانه و ارزش آن است. برخی از روشها از آموزش LLM با یک مجموعه داده ضد عفونی شده استفاده می کنند ، که پرهزینه است ، زمان می برد و ممکن است عملکرد LLM را تغییر دهد. برخی دیگر از رمزگشایی مدل های پاداش خارجی ، مانند نمونه گیری یا جستجوی پرتو استفاده می کنند که برای اجرای آن بیشتر طول می کشد و به حافظه بیشتری نیاز دارد. در مورد SASA ، KO ، Daniel و تیم تحقیقاتی IBM روشی را تهیه کردند که از ماهیت خودکار LLM ها استفاده می کند و با استفاده از یک استراتژی مبتنی بر رمزگشایی در طول استنباط LLM ، به تدریج نسل-یک نشانه در یک زمان-به دور از خروجی های ناخوشایند یا نامطلوب و به سمت زبان بهتر.

پیشنهاد می‌کنیم بخوانید: برای ساختن یک کمک‌کننده هوش مصنوعی بهتر، با مدل‌سازی رفتار غیرمنطقی انسان‌ها شروع کنید

گروه تحقیقاتی با ساختن طبقه بندی خطی که کار می کند ، این کار را به دست آورد روی فضای زیر مجموعه از تعبیه LLM. هنگامی که LLM ها آموزش می بینند ، کلماتی با معانی مشابه در فضای بردار و دور از کلمات متفاوت قرار می گیرند. محققان فرض کردند که تعبیه LLM نیز می تواند اطلاعات متنی را ضبط کند ، که می تواند برای سم زدایی استفاده شود. محققان از مجموعه داده هایی استفاده می کردند که حاوی مجموعه های سریع (نیمه اول یک جمله یا فکر) ، پاسخ (تکمیل آن جمله) و حاشیه نویسی از بشر ، مانند سمی یا غیر سمی ، ترجیح داده شده یا ترجیح داده نشده ، با برچسب های مداوم از 0-1 ، حاکی از افزایش سمیت است. یک طبقه بندی کننده بهینه بیز سپس برای یادگیری و ترسیم یک خط بین فضای باینری در درون جمله تعبیه شده ، که توسط مقادیر مثبت (فضای غیر سمی) و اعداد منفی (فضای سمی) نشان داده شده است ، استفاده شد.

سیستم SASA سپس با استفاده مجدد از احتمال نمونه گیری جدیدترین نشانه های بالقوه مبتنی بر کار می کند روی مقدار آن و فاصله عبارت تولید شده تا طبقه بندی ، با هدف باقی ماندن نزدیک به توزیع نمونه برداری اصلی.

برای نشان دادن ، اگر کاربر در حال تولید یک توکن بالقوه شماره 12 در یک جمله باشد ، LLM برای یک کلمه معقول ، بر اساس واژگان کامل خود نگاه خواهد کرد روی 11 کلمه ای که قبل از آن آمده است ، و با استفاده از Top-K ، Top-P ، تقریباً 10 نشانه را برای انتخاب از آن فیلتر کرده و تولید می کند. SASA سپس هر یک از این نشانه ها را در جمله جزئی تکمیل شده برای نزدیکی خود به طبقه بندی کننده ارزیابی می کند (یعنی مقدار توکن 1-11 ، به علاوه هر یک از نشانه های بالقوه 12). نشانه هایی که در فضای مثبت جملات تولید می کنند ، تشویق می شوند ، در حالی که افراد در فضای منفی مجازات می شوند. علاوه بر این ، هرچه دورتر از طبقه بندی کننده باشد ، تأثیر آن قوی تر می شود.

“هدف این است که نمونه گیری خودکار را تغییر دهیم process با استفاده مجدد از احتمال نشانه های خوب. اگر با توجه به این زمینه ، نشانه بعدی سمی باشد ، ما می خواهیم احتمال نمونه گیری را برای کسانی که مستعد به نشانه های سمی هستند ، کاهش دهیم. “

کاهش سمیت برای تطبیق ارزش

محققان روش خود را در برابر چندین مداخله پایه با سه LLM با افزایش اندازه ارزیابی کردند. همه ترانسفورماتورها و مبتنی بر خودجوش بودند: GPT2-LARGE ، LLAMA2-7B و LLAMA 3.1-8B- به ترتیب با 762 میلیون ، 7 میلیارد و 8 میلیارد پارامتر. برای هر سریع ، LLM وظیفه داشت 25 بار جمله/عبارت را تکمیل کند ، و PerspectiveApi آنها را از 0 تا 1 به ثمر رساند ، با این که هر چیزی بیش از 0.5 سمی است. این تیم به دو معیار نگاه می کند: میانگین حداکثر نمره سمیت در 25 نسل برای همه سوقخ ها و میزان سمی که احتمال تولید حداقل یک عبارت سمی در بیش از 25 نسل بود. کاهش تسلط (و به همین دلیل افزایش خطر) نیز مورد تجزیه و تحلیل قرار گرفت. SASA برای تکمیل مجموعه داده های realtoxicityPrompts (RPT) ، BOLD و ATTAQ ، که حاوی مطالبات جمله انگلیسی وجود دارد ، مورد آزمایش قرار گرفت.

پیشنهاد می‌کنیم بخوانید: "آنها می توانند خود را در حال شکل دادن به دنیایی که در آن زندگی می کنند ببینند"

محققان پیچیدگی آزمایشات خود را برای سم زدایی توسط SASA افزایش دادند و با شروع غیر سمی از مجموعه داده RPT ، به دنبال تکمیل جمله های مضر بودند. سپس ، آنها آن را به سمت های چالش برانگیزتر از RPT که احتمالاً در مورد نتایج حاصل می شود ، افزایش دادند و همچنین SASA را در مدل تنظیم شده دستورالعمل اعمال کردند تا ارزیابی کنند که آیا تکنیک آنها می تواند باعث کاهش بیشتر OUPT های ناخواسته شود. آنها همچنین از معیارهای BOLD و ATTAQ برای بررسی کاربرد کلی SASA در سم زدایی استفاده کردند. محققان با استفاده از مجموعه داده های جسورانه به دنبال تعصب جنسیتی در نسل های زبان بودند و سعی کردند به یک نرخ سمی متعادل بین جنس ها دست یابند. سرانجام ، این تیم به زمان اجرا ، استفاده از حافظه و چگونگی ترکیب SASA با فیلتر کلمه برای دستیابی به تولید زبان سالم و یا مفید نگاه کرد.

کو می گوید: “اگر ما در مورد چگونگی فکر کردن و واکنش انسان در جهان فکر می کنیم ، چیزهای بد را می بینیم ، بنابراین به این معنی نیست که اجازه دهید مدل زبان فقط چیزهای خوب را ببیند. این در مورد درک طیف کامل است – چه خوب و چه بد ،” و تصمیم می گیریم وقتی صحبت می کنیم و عمل می کنیم ارزش خود را حفظ کنیم. “

به طور کلی ، SASA به کاهش قابل توجهی در تولید زبان سمی دست یافت ، روی همزمان با RAD ، یک روش پیشرفته مدل پاداش خارجی. با این حال ، به طور جهانی مشاهده شد که سم زدایی قوی تر همراه با کاهش تسلط است. قبل از مداخله ، LLM ها پاسخهای سمی بیشتری برای اعلان های دارای برچسب زن نسبت به مرد ایجاد می کردند. با این حال ، SASA همچنین توانست پاسخ های مضر را به میزان قابل توجهی کاهش دهد و آنها را مساوی تر کند. به همین ترتیب ، فیلتر کلمه روی بالای SASA سطح سمیت را به طور قابل توجهی پایین آورد ، اما همچنین مانع توانایی LLM در پاسخ به منسجم شد.

KO می گوید ، جنبه بزرگی از این کار این است که این یک مشکل بهینه سازی کاملاً تعریف شده و محدود است ، به این معنی که تعادل بین تولید زبان باز که طبیعی به نظر می رسد و نیاز به کاهش زبان ناخواسته می تواند حاصل شود و تنظیم شود.

علاوه بر این ، KO می گوید ، SASA می تواند در آینده برای چندین ویژگی خوب کار کند: “برای انسان ، ما چندین ارزش انسانی داریم. ما نمی خواهیم چیزهای سمی بگوییم ، اما ما همچنین می خواهیم صادقانه ، مفید و وفادار باشیم … اگر شما می خواستید یک مدل را برای همه این ارزش ها تنظیم کنید ، به منابع محاسباتی بیشتری نیاز دارد و دوره ، آموزش های اضافی.” با توجه به شیوه سبک وزن SASA ، می توان به راحتی در این شرایط اعمال شد: “اگر می خواهید با مقادیر متعددی کار کنید ، به سادگی موقعیت نسل را در چندین زیر مجموعه بررسی می کنید. این فقط از نظر محاسبات و پارامترهای محاسباتی اضافه می کند.”

این کار تا حدودی توسط آزمایشگاه MIT-IBM Watson AI و بنیاد ملی علوم پشتیبانی شد.

منبع: https://news.mit.edu/1404/training-llms-self-detoxify-their-language-0414

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1404-04-15 11:52:09

امتیاز شما به این مطلب