وبلاگ رسانگار
با ما حرفه ای باشید

سرور مجازی NVMe

روشی جدید برای اجازه دادن به چت ربات‌های هوش مصنوعی در تمام طول روز بدون خرابی

0 11
زمان لازم برای مطالعه: 5 دقیقه


هنگامی که یک مکالمه انسان و هوش مصنوعی شامل دورهای زیادی از گفتگوهای مداوم است، مدل‌های قدرتمند یادگیری ماشینی زبان که ربات‌های چت مانند ChatGPT را هدایت می‌کنند، گاهی اوقات شروع به فروپاشی می‌کنند و باعث می‌شوند عملکرد ربات‌ها به سرعت بدتر شود.

تیمی از محققان از MIT و جاهای دیگر علت شگفت‌انگیز این مشکل را مشخص کرده‌اند و راه‌حل ساده‌ای را توسعه داده‌اند که به یک ربات چت امکان می‌دهد بدون توقف یا کاهش سرعت، یک مکالمه بی‌وقفه را حفظ کند.

روش آنها شامل یک تغییر در حافظه پنهان کلید-مقدار (که مانند یک حافظه مکالمه است) در هسته بسیاری از مدل های زبان بزرگ است. در برخی از روش‌ها، زمانی که این کش نیاز دارد اطلاعات بیشتری نسبت به ظرفیت خود در خود نگه دارد، اولین تکه‌های داده خارج می‌شوند. این می تواند باعث خرابی مدل شود.

با اطمینان از اینکه این چند نقطه داده اول در حافظه باقی می مانند، روش محققان به یک ربات چت اجازه می دهد بدون توجه به اینکه مکالمه چقدر طول بکشد به چت ادامه دهد.

این روش که StreamingLLM نام دارد، یک مدل را قادر می‌سازد حتی زمانی که مکالمه طولانی می‌شود، کارآمد بماند روی برای بیش از 4 میلیون کلمه در مقایسه با روش دیگری که با محاسبه مجدد بخشی از مکالمات گذشته از خرابی جلوگیری می کند، StreamingLLM بیش از 22 برابر سریعتر عمل کرد.

این می‌تواند به یک ربات چت اجازه دهد بدون نیاز به راه‌اندازی مداوم، مکالمات طولانی را در طول روز انجام دهد و دستیاران هوش مصنوعی کارآمد را برای کارهایی مانند کپی‌نویسی، ویرایش، یا تولید کد فعال کند.

اکنون، با این روش، می‌توانیم این مدل‌های زبانی بزرگ را به‌طور مداوم مستقر کنیم. با ساختن یک ربات چت که همیشه بتوانیم با آن چت کنیم و همیشه بتواند بر اساس آن به ما پاسخ دهد روی گوانگ ژوان شیائو، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی مقاله می گوید که در مکالمات اخیر ما می توانیم از این چت بات ها در برخی برنامه های جدید استفاده کنیم. روی StreamingLLM.

از نویسندگان همکار شیائو می توان به مشاور او، سونگ هان، دانشیار EECS، عضو آزمایشگاه هوش مصنوعی واتسون MIT-IBM و دانشمند برجسته NVIDIA اشاره کرد. و همچنین Yuandong Tian، دانشمند محقق در Meta AI. بیدی چن، استادیار دانشگاه کارنگی ملون؛ و نویسنده ارشد مایک لوئیس، دانشمند محقق در Meta AI. این اثر در کنفرانس بین المللی ارائه خواهد شد روی بازنمایی های یادگیری

یک پدیده گیج کننده

مدل‌های زبان بزرگ، داده‌ها را مانند کلمات موجود در پرس و جوی کاربر، در نمایش‌هایی به نام نشانه‌ها رمزگذاری می‌کنند. بسیاری از مدل‌ها از مکانیزم توجهی استفاده می‌کنند که از این نشانه‌ها برای تولید متن جدید استفاده می‌کند.

به طور معمول، یک ربات چت هوش مصنوعی بر اساس متن جدید می نویسد روی متنی که به تازگی دیده است، بنابراین توکن های اخیر را در حافظه ذخیره می کند که KV Cache نامیده می شود تا بعدا استفاده شود. مکانیسم توجه شبکه‌ای می‌سازد که شامل همه نشانه‌ها در حافظه پنهان است، یک «نقشه توجه» که نشان می‌دهد تا چه حد قوی هر نشانه یا کلمه با نشانه‌های دیگری مرتبط است.

پیشنهاد می‌کنیم بخوانید:  مطالعه: هنگام تخصیص منابع کمیاب با هوش مصنوعی، تصادفی‌سازی می‌تواند عدالت را بهبود بخشد

درک این روابط یکی از ویژگی‌هایی است که مدل‌های زبان بزرگ را قادر می‌سازد تا متنی شبیه انسان تولید کنند.

اما هنگامی که حافظه پنهان بسیار بزرگ می شود، نقشه توجه می تواند حتی بزرگتر شود که محاسبات را کند می کند.

همچنین، اگر محتوای رمزگذاری نیاز به توکن‌های بیشتری نسبت به حافظه پنهان داشته باشد، عملکرد مدل کاهش می‌یابد. به عنوان مثال، یک مدل محبوب می تواند 4096 توکن را ذخیره کند، اما در یک مقاله دانشگاهی حدود 10000 توکن وجود دارد.

برای دور زدن این مشکلات، محققان از یک “کش کشویی” استفاده می کنند که قدیمی ترین توکن ها را برای افزودن توکن های جدید بیرون می آورد. با این حال، عملکرد مدل اغلب به محض خارج شدن اولین نشانه کاهش می یابد و به سرعت کیفیت کلمات تولید شده جدید را کاهش می دهد.

در این مقاله جدید، محققان متوجه شدند که اگر اولین نشانه را در حافظه پنهان نگه دارند، مدل حتی زمانی که از اندازه حافظه پنهان فراتر رود، عملکرد خود را حفظ خواهد کرد.

اما این هیچ معنایی نداشت احتمالاً اولین کلمه در یک رمان ربطی به کلمه آخر ندارد، پس چرا اولین کلمه برای مدل برای تولید جدیدترین کلمه اینقدر مهم است؟

محققان در مقاله جدید خود علت این پدیده را نیز کشف کردند.

توجه فرو می رود

برخی از مدل‌ها از یک عملیات Softmax در مکانیسم توجه خود استفاده می‌کنند که به هر توکن امتیازی اختصاص می‌دهد که نشان‌دهنده میزان ارتباط آن با توکن‌های دیگر است. عملیات Softmax مستلزم مجموع امتیازات توجه به 1 است. از آنجایی که بیشتر نشانه‌ها ارتباط قوی ندارند، امتیاز توجه آنها بسیار پایین است. مدل امتیاز توجه باقی مانده را در اولین نشانه حذف می کند.

محققان این نشانه اول را «سینک توجه» می نامند.

ما به یک حوضچه توجه نیاز داریم و مدل تصمیم می گیرد از اولین نشانه به عنوان حوضچه توجه استفاده کند زیرا در سطح جهانی قابل مشاهده است – هر نشانه دیگری می تواند آن را ببیند. ما متوجه شدیم که برای حفظ پویایی مدل باید همیشه توجه را در حافظه پنهان نگه داریم.

در ساخت StreamingLLM، محققان دریافتند که داشتن چهار نشانه کاهش توجه در ابتدای حافظه پنهان منجر به عملکرد بهینه می شود.

آنها همچنین دریافتند که رمزگذاری موقعیتی هر توکن باید ثابت بماند، حتی زمانی که توکن‌های جدید اضافه می‌شوند و سایر نشانه‌ها خارج می‌شوند. اگر توکن 5 خارج شود، توکن 6 باید به صورت 6 رمزگذاری شود، حتی اگر در حال حاضر پنجمین توکن در حافظه پنهان است.

با ترکیب این دو ایده، آنها StreamingLLM را قادر ساختند تا مکالمه ای مداوم را حفظ کند و در عین حال از روش محبوبی که از محاسبه مجدد استفاده می کند بهتر عمل کند.

پیشنهاد می‌کنیم بخوانید:  راه اندازی پیشرفت به سمت محاسبات با سرعت نور را تسریع می کند

به عنوان مثال، زمانی که حافظه پنهان دارای 256 توکن است، روش محاسبه مجدد 63 میلی ثانیه برای رمزگشایی یک توکن جدید طول می کشد، در حالی که StreamingLLM 31 میلی ثانیه طول می کشد. با این حال، اگر اندازه کش به 4096 توکن افزایش یابد، محاسبه مجدد برای یک توکن جدید به 1411 میلی ثانیه نیاز دارد، در حالی که StreamingLLM فقط به 65 میلی ثانیه نیاز دارد.

یانگ یو، استاد جوان ریاست‌جمهوری علوم کامپیوتر در دانشگاه ملی می‌گوید: رویکرد نوآورانه StreamingLLM که حول مکانیزم کاهش توجه متمرکز است، استفاده و عملکرد حافظه پایدار را تضمین می‌کند، حتی در هنگام پردازش متون تا 4 میلیون توکن. سنگاپور که درگیر این کار نبود. «این قابلیت فقط چشمگیر نیست. دگرگون‌کننده است و StreamingLLM را قادر می‌سازد تا در طیف گسترده‌ای از برنامه‌های کاربردی هوش مصنوعی اعمال شود. عملکرد و تطبیق پذیری StreamingLLM آن را به عنوان یک فناوری بسیار امیدوارکننده نشان می دهد که آماده است انقلابی در روش رویکرد ما به برنامه های کاربردی تولید مبتنی بر هوش مصنوعی ایجاد کند.

Tianqi Chen، استادیار دپارتمان‌های یادگیری ماشین و علوم کامپیوتر در دانشگاه کارنگی ملون که در این تحقیق مشارکتی نداشت، موافق است و می‌گوید: «Streaming LLM باعث می‌شود که طول مکالمه مدل‌های زبان بزرگ گسترش یابد. ما از آن برای فعال کردن استقرار مدل‌های Mistral استفاده کرده‌ایم روی آیفون ها با موفقیت بزرگ.”

محققان همچنین استفاده از تمرکز حواس را در طول آموزش مدل با قرار دادن چندین نشانه نگهدارنده در تمام نمونه های آموزشی مورد بررسی قرار دادند.

آن‌ها دریافتند که آموزش با تمرکز حواس به یک مدل اجازه می‌دهد تا عملکرد خود را تنها با یک محفظه توجه در حافظه پنهان خود حفظ کند، نه چهار موردی که معمولاً برای تثبیت عملکرد یک مدل از قبل آموزش دیده لازم است.

اما در حالی که StreamingLLM یک مدل را قادر می‌سازد تا یک مکالمه مداوم را انجام دهد، مدل نمی‌تواند کلماتی را که در حافظه پنهان ذخیره نشده‌اند به خاطر بیاورد. در آینده، محققان قصد دارند با بررسی روش‌هایی برای بازیابی نشانه‌هایی که خارج شده‌اند یا مدل را قادر می‌سازد تا مکالمات قبلی را به خاطر بسپارد، این محدودیت را هدف قرار دهند.

StreamingLLM در کتابخانه بزرگ بهینه‌سازی مدل زبان NVIDIA، TensorRT-LLM، گنجانده شده است.

این کار تا حدی توسط آزمایشگاه هوش مصنوعی MIT-IBM Watson، مرکز علوم MIT و بنیاد ملی علوم ایالات متحده تامین می شود.


منبع: https://news.mit.edu/1403/new-way-let-ai-chatbots-converse-all-day-without-crashing-0213

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-02-13 20:28:17

امتیاز شما به این مطلب
دیدگاه شما در خصوص مطلب چیست ؟

آدرس ایمیل شما منتشر نخواهد شد.

لطفا دیدگاه خود را با احترام به دیدگاه های دیگران و با توجه به محتوای مطلب درج کنید