از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
روشی جدید برای اجازه دادن به چت رباتهای هوش مصنوعی در تمام طول روز بدون خرابی
هنگامی که یک مکالمه انسان و هوش مصنوعی شامل دورهای زیادی از گفتگوهای مداوم است، مدلهای قدرتمند یادگیری ماشینی زبان که رباتهای چت مانند ChatGPT را هدایت میکنند، گاهی اوقات شروع به فروپاشی میکنند و باعث میشوند عملکرد رباتها به سرعت بدتر شود.
تیمی از محققان از MIT و جاهای دیگر علت شگفتانگیز این مشکل را مشخص کردهاند و راهحل سادهای را توسعه دادهاند که به یک ربات چت امکان میدهد بدون توقف یا کاهش سرعت، یک مکالمه بیوقفه را حفظ کند.
روش آنها شامل یک تغییر در حافظه پنهان کلید-مقدار (که مانند یک حافظه مکالمه است) در هسته بسیاری از مدل های زبان بزرگ است. در برخی از روشها، زمانی که این کش نیاز دارد اطلاعات بیشتری نسبت به ظرفیت خود در خود نگه دارد، اولین تکههای داده خارج میشوند. این می تواند باعث خرابی مدل شود.
با اطمینان از اینکه این چند نقطه داده اول در حافظه باقی می مانند، روش محققان به یک ربات چت اجازه می دهد بدون توجه به اینکه مکالمه چقدر طول بکشد به چت ادامه دهد.
این روش که StreamingLLM نام دارد، یک مدل را قادر میسازد حتی زمانی که مکالمه طولانی میشود، کارآمد بماند روی برای بیش از 4 میلیون کلمه در مقایسه با روش دیگری که با محاسبه مجدد بخشی از مکالمات گذشته از خرابی جلوگیری می کند، StreamingLLM بیش از 22 برابر سریعتر عمل کرد.
این میتواند به یک ربات چت اجازه دهد بدون نیاز به راهاندازی مداوم، مکالمات طولانی را در طول روز انجام دهد و دستیاران هوش مصنوعی کارآمد را برای کارهایی مانند کپینویسی، ویرایش، یا تولید کد فعال کند.
اکنون، با این روش، میتوانیم این مدلهای زبانی بزرگ را بهطور مداوم مستقر کنیم. با ساختن یک ربات چت که همیشه بتوانیم با آن چت کنیم و همیشه بتواند بر اساس آن به ما پاسخ دهد روی گوانگ ژوان شیائو، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی مقاله می گوید که در مکالمات اخیر ما می توانیم از این چت بات ها در برخی برنامه های جدید استفاده کنیم. روی StreamingLLM.
از نویسندگان همکار شیائو می توان به مشاور او، سونگ هان، دانشیار EECS، عضو آزمایشگاه هوش مصنوعی واتسون MIT-IBM و دانشمند برجسته NVIDIA اشاره کرد. و همچنین Yuandong Tian، دانشمند محقق در Meta AI. بیدی چن، استادیار دانشگاه کارنگی ملون؛ و نویسنده ارشد مایک لوئیس، دانشمند محقق در Meta AI. این اثر در کنفرانس بین المللی ارائه خواهد شد روی بازنمایی های یادگیری
یک پدیده گیج کننده
مدلهای زبان بزرگ، دادهها را مانند کلمات موجود در پرس و جوی کاربر، در نمایشهایی به نام نشانهها رمزگذاری میکنند. بسیاری از مدلها از مکانیزم توجهی استفاده میکنند که از این نشانهها برای تولید متن جدید استفاده میکند.
به طور معمول، یک ربات چت هوش مصنوعی بر اساس متن جدید می نویسد روی متنی که به تازگی دیده است، بنابراین توکن های اخیر را در حافظه ذخیره می کند که KV Cache نامیده می شود تا بعدا استفاده شود. مکانیسم توجه شبکهای میسازد که شامل همه نشانهها در حافظه پنهان است، یک «نقشه توجه» که نشان میدهد تا چه حد قوی هر نشانه یا کلمه با نشانههای دیگری مرتبط است.
درک این روابط یکی از ویژگیهایی است که مدلهای زبان بزرگ را قادر میسازد تا متنی شبیه انسان تولید کنند.
اما هنگامی که حافظه پنهان بسیار بزرگ می شود، نقشه توجه می تواند حتی بزرگتر شود که محاسبات را کند می کند.
همچنین، اگر محتوای رمزگذاری نیاز به توکنهای بیشتری نسبت به حافظه پنهان داشته باشد، عملکرد مدل کاهش مییابد. به عنوان مثال، یک مدل محبوب می تواند 4096 توکن را ذخیره کند، اما در یک مقاله دانشگاهی حدود 10000 توکن وجود دارد.
برای دور زدن این مشکلات، محققان از یک “کش کشویی” استفاده می کنند که قدیمی ترین توکن ها را برای افزودن توکن های جدید بیرون می آورد. با این حال، عملکرد مدل اغلب به محض خارج شدن اولین نشانه کاهش می یابد و به سرعت کیفیت کلمات تولید شده جدید را کاهش می دهد.
در این مقاله جدید، محققان متوجه شدند که اگر اولین نشانه را در حافظه پنهان نگه دارند، مدل حتی زمانی که از اندازه حافظه پنهان فراتر رود، عملکرد خود را حفظ خواهد کرد.
اما این هیچ معنایی نداشت احتمالاً اولین کلمه در یک رمان ربطی به کلمه آخر ندارد، پس چرا اولین کلمه برای مدل برای تولید جدیدترین کلمه اینقدر مهم است؟
محققان در مقاله جدید خود علت این پدیده را نیز کشف کردند.
توجه فرو می رود
برخی از مدلها از یک عملیات Softmax در مکانیسم توجه خود استفاده میکنند که به هر توکن امتیازی اختصاص میدهد که نشاندهنده میزان ارتباط آن با توکنهای دیگر است. عملیات Softmax مستلزم مجموع امتیازات توجه به 1 است. از آنجایی که بیشتر نشانهها ارتباط قوی ندارند، امتیاز توجه آنها بسیار پایین است. مدل امتیاز توجه باقی مانده را در اولین نشانه حذف می کند.
محققان این نشانه اول را «سینک توجه» می نامند.
ما به یک حوضچه توجه نیاز داریم و مدل تصمیم می گیرد از اولین نشانه به عنوان حوضچه توجه استفاده کند زیرا در سطح جهانی قابل مشاهده است – هر نشانه دیگری می تواند آن را ببیند. ما متوجه شدیم که برای حفظ پویایی مدل باید همیشه توجه را در حافظه پنهان نگه داریم.
در ساخت StreamingLLM، محققان دریافتند که داشتن چهار نشانه کاهش توجه در ابتدای حافظه پنهان منجر به عملکرد بهینه می شود.
آنها همچنین دریافتند که رمزگذاری موقعیتی هر توکن باید ثابت بماند، حتی زمانی که توکنهای جدید اضافه میشوند و سایر نشانهها خارج میشوند. اگر توکن 5 خارج شود، توکن 6 باید به صورت 6 رمزگذاری شود، حتی اگر در حال حاضر پنجمین توکن در حافظه پنهان است.
با ترکیب این دو ایده، آنها StreamingLLM را قادر ساختند تا مکالمه ای مداوم را حفظ کند و در عین حال از روش محبوبی که از محاسبه مجدد استفاده می کند بهتر عمل کند.
به عنوان مثال، زمانی که حافظه پنهان دارای 256 توکن است، روش محاسبه مجدد 63 میلی ثانیه برای رمزگشایی یک توکن جدید طول می کشد، در حالی که StreamingLLM 31 میلی ثانیه طول می کشد. با این حال، اگر اندازه کش به 4096 توکن افزایش یابد، محاسبه مجدد برای یک توکن جدید به 1411 میلی ثانیه نیاز دارد، در حالی که StreamingLLM فقط به 65 میلی ثانیه نیاز دارد.
یانگ یو، استاد جوان ریاستجمهوری علوم کامپیوتر در دانشگاه ملی میگوید: رویکرد نوآورانه StreamingLLM که حول مکانیزم کاهش توجه متمرکز است، استفاده و عملکرد حافظه پایدار را تضمین میکند، حتی در هنگام پردازش متون تا 4 میلیون توکن. سنگاپور که درگیر این کار نبود. «این قابلیت فقط چشمگیر نیست. دگرگونکننده است و StreamingLLM را قادر میسازد تا در طیف گستردهای از برنامههای کاربردی هوش مصنوعی اعمال شود. عملکرد و تطبیق پذیری StreamingLLM آن را به عنوان یک فناوری بسیار امیدوارکننده نشان می دهد که آماده است انقلابی در روش رویکرد ما به برنامه های کاربردی تولید مبتنی بر هوش مصنوعی ایجاد کند.
Tianqi Chen، استادیار دپارتمانهای یادگیری ماشین و علوم کامپیوتر در دانشگاه کارنگی ملون که در این تحقیق مشارکتی نداشت، موافق است و میگوید: «Streaming LLM باعث میشود که طول مکالمه مدلهای زبان بزرگ گسترش یابد. ما از آن برای فعال کردن استقرار مدلهای Mistral استفاده کردهایم روی آیفون ها با موفقیت بزرگ.”
محققان همچنین استفاده از تمرکز حواس را در طول آموزش مدل با قرار دادن چندین نشانه نگهدارنده در تمام نمونه های آموزشی مورد بررسی قرار دادند.
آنها دریافتند که آموزش با تمرکز حواس به یک مدل اجازه میدهد تا عملکرد خود را تنها با یک محفظه توجه در حافظه پنهان خود حفظ کند، نه چهار موردی که معمولاً برای تثبیت عملکرد یک مدل از قبل آموزش دیده لازم است.
اما در حالی که StreamingLLM یک مدل را قادر میسازد تا یک مکالمه مداوم را انجام دهد، مدل نمیتواند کلماتی را که در حافظه پنهان ذخیره نشدهاند به خاطر بیاورد. در آینده، محققان قصد دارند با بررسی روشهایی برای بازیابی نشانههایی که خارج شدهاند یا مدل را قادر میسازد تا مکالمات قبلی را به خاطر بسپارد، این محدودیت را هدف قرار دهند.
StreamingLLM در کتابخانه بزرگ بهینهسازی مدل زبان NVIDIA، TensorRT-LLM، گنجانده شده است.
این کار تا حدی توسط آزمایشگاه هوش مصنوعی MIT-IBM Watson، مرکز علوم MIT و بنیاد ملی علوم ایالات متحده تامین می شود.
منبع: https://news.mit.edu/1403/new-way-let-ai-chatbots-converse-all-day-without-crashing-0213
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم
زمان انتشار: 1403-02-13 20:28:17