از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
استفاده از ایده های نظریه بازی ها برای بهبود قابلیت اطمینان مدل های زبان
تصور کنید که شما و یکی از دوستانتان در حال انجام یک بازی هستید که هدف شما این است که فقط با استفاده از جملات مرموز پیام های مخفی را به یکدیگر منتقل کنید. کار دوست شما حدس زدن پیام مخفی پشت جملات شماست. گاهی اوقات، شما مستقیماً سرنخ میدهید، و گاهی اوقات، دوستتان باید با پرسیدن سؤالات بله یا خیر در مورد سرنخهایی که دادهاید، پیام را حدس بزند. چالش این است که هر دوی شما می خواهید مطمئن شوید که یکدیگر را به درستی درک می کنید و موافق هستید روی پیام مخفی
محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) یک “بازی” مشابه برای کمک به بهبود روش درک و تولید متن توسط هوش مصنوعی ایجاد کرده اند. این بازی به عنوان «بازی اجماع» شناخته میشود و شامل دو بخش از یک سیستم هوش مصنوعی میشود – یک بخش سعی میکند جملاتی را تولید کند (مانند ارائه سرنخها)، و بخش دیگر سعی میکند آن جملات را درک و ارزیابی کند (مانند حدس زدن پیام مخفی).
محققان دریافتند که با تلقی این تعامل به عنوان یک بازی، که در آن هر دو بخش هوش مصنوعی تحت قوانین خاصی با هم کار می کنند تا به توافق برسند. روی پیام درست، آنها می توانند به طور قابل توجهی توانایی هوش مصنوعی را برای دادن پاسخ های صحیح و منسجم به سوالات بهبود بخشند. آنها این رویکرد جدید بازی مانند را آزمایش کردند روی انواع کارها مانند درک مطلب، حل مسائل ریاضی و حمل کردن روی مکالمات انجام داد و متوجه شد که به هوش مصنوعی کمک می کند تا در کل عملکرد بهتری داشته باشد.
به طور سنتی، مدلهای زبانی بزرگ به یکی از دو روش پاسخ میدهند: ایجاد پاسخها به طور مستقیم از مدل (پرسوجوی تولیدی) یا استفاده از مدل برای امتیاز دادن به مجموعهای از پاسخهای از پیش تعریفشده (پرسجویی متمایز)، که میتواند منجر به نتایج متفاوت و گاهی اوقات ناسازگار شود. با رویکرد مولد «رئیس جمهور آمریکا کیست؟ ممکن است پاسخی سرراست مانند “جو بایدن” بدهد. با این حال، یک پرسش تبعیض آمیز می تواند به نادرستی این واقعیت را در هنگام ارزیابی همان پاسخ، مانند “باراک اوباما” مورد مناقشه قرار دهد.
بنابراین، چگونه میتوانیم رویههای امتیازدهی ناسازگار را برای دستیابی به پیشبینیهای منسجم و کارآمد با هم تطبیق دهیم؟
روش جدیدی را برای کمک به مدلهای زبان برای درک و تولید متن، مانند یک بازی، تصور کنید. ما یک روش تئوری بازی بدون آموزش ایجاد کردهایم که کل را بررسی میکند. process به عنوان یک بازی پیچیده از سرنخ ها و سیگنال ها، که در آن یک مولد سعی می کند با استفاده از زبان طبیعی، پیام درست را به یک ممیز ارسال کند. به جای مهره های شطرنج، آنها از کلمات و جملات استفاده می کنند. الگوریتم رمزگشایی جدید به نام “رتبه بندی تعادل”. این یک نمایش بسیار هیجانانگیز است که نشان میدهد چگونه وارد کردن استراتژیهای تئوری بازی به ترکیب میتواند با چالشهای بزرگ در ساخت مدلهای زبانی قابل اعتمادتر و سازگارتر مقابله کند.”
وقتی الگوریتم تیم در بسیاری از وظایف، مانند درک مطلب، استدلال عامیانه، حل مسئله ریاضی و گفتگو مورد آزمایش قرار گرفت، به طور مداوم میزان عملکرد این مدلها را بهبود بخشید. استفاده از الگوریتم ER با مدل LLaMA-7B حتی از نتایج مدل های بسیار بزرگتر نیز بهتر بود. “با توجه به اینکه آنها در حال حاضر رقابتی هستند، مردم کار کرده اند روی برای مدتی، اما سطح پیشرفتهایی که ما شاهد بودیم که میتوانستیم از مدلی 10 برابر بزرگتر پیشی بگیریم، شگفتانگیز بود.»
بازی روی
«دیپلماسی»، یک بازی استراتژیک رومیزی است که در اروپای قبل از جنگ جهانی اول اتفاق میافتد، جایی که بازیکنان بدون استفاده از تاس در مورد اتحاد مذاکره میکنند، به دوستان خیانت میکنند و سرزمینها را تسخیر میکنند. روی مهارت، استراتژی و دستکاری بین فردی – اخیراً یک بار دیگر ظاهر شده است. در نوامبر 2022، دانشمندان کامپیوتر، از جمله جیکوب، “سیسرو” را توسعه دادند، یک عامل هوش مصنوعی که به تواناییهای سطح انسانی در بازی هفت نفره ترکیبی دست مییابد، که نیازمند همان مهارتهای ذکر شده، اما با زبان طبیعی است. ریاضیات پشت این تا حدی الهام بخش بازی اجماع بود.
در حالی که تاریخچه عوامل هوش مصنوعی به مدت طولانی قبل از ورود نرم افزار OpenAI به چت در نوامبر 2022 است، به خوبی مستند شده است که آنها هنوز هم می توانند به عنوان دوست خوب و در عین حال آسیب شناس شما بازی کنند.
سیستم بازی اجماع به عنوان یک توافق به تعادل می رسد و دقت و وفاداری به بینش های اصلی مدل را تضمین می کند. برای دستیابی به این هدف، روش به طور مکرر تعاملات بین مؤلفه های مولد و تمایز را تنظیم می کند تا زمانی که به یک اجماع برسند. روی پاسخی که به طور دقیق واقعیت را منعکس کند و با باورهای اولیه آنها همسو باشد. این رویکرد به طور موثر شکاف بین دو روش پرس و جو را پر می کند.
در عمل، اجرای رویکرد بازی اجماع برای پرس و جوی مدل زبان، به ویژه برای وظایف پاسخگویی به پرسش، شامل چالش های محاسباتی قابل توجهی است. به عنوان مثال، هنگام استفاده از مجموعه دادههایی مانند MMLU، که دارای هزاران سؤال و پاسخهای چند گزینهای هستند، مدل باید مکانیزم را برای هر پرس و جو اعمال کند. سپس باید بین مؤلفههای مولد و افتراقی برای هر سؤال و پاسخهای احتمالی آن به اجماع برسد.
این سیستم با یک حق قبولی در مدرسه مشکل داشت: مشکلات کلمه ریاضی. نمی تواند پاسخ های اشتباهی ایجاد کند، که این یک جزء حیاتی در درک است process از رسیدن به مورد مناسب
«چند سال گذشته شاهد پیشرفت بسیار چشمگیری در تصمیمگیری استراتژیک و تولید زبان از سیستمهای هوش مصنوعی بودهایم، اما ما تازه شروع کردهایم که چگونه این دو را کنار هم قرار دهیم. رتبه بندی تعادل اولین گام در این مسیر است، اما من فکر می کنم که ما می توانیم کارهای زیادی انجام دهیم تا این را به مشکلات پیچیده تر ارتقا دهیم.
یک راه کار آینده شامل تقویت مدل پایه با ادغام خروجی های روش فعلی است. این امر به ویژه امیدوارکننده است زیرا میتواند پاسخهای واقعیتر و منسجمتری را در مورد وظایف مختلف، از جمله واقعیتسازی و تولید بدون پایان، ارائه دهد. پتانسیل چنین روشی برای بهبود قابل توجه عملکرد مدل پایه بالا است، که می تواند خروجی های قابل اعتمادتر و واقعی تر از ChatGPT و مدل های زبان مشابهی را که مردم روزانه استفاده می کنند، به دست آورد.
اگرچه مدلهای زبان مدرن، مانند ChatGPT و Gemini، منجر به حل وظایف مختلف از طریق رابطهای چت شدهاند، رمزگشایی آماری process احمد بیرامی، دانشمند تحقیقاتی گوگل، که در این کار نقشی نداشت، میگوید که پاسخی از چنین مدلهایی ایجاد میکند، برای دههها بدون تغییر باقی مانده است. پیشنهاد محققان MIT یک چارچوب نظری بازی نوآورانه برای رمزگشایی از مدلهای زبانی از طریق حل است. تعادل یک بازی اجماع دستاوردهای عملکرد قابل توجهی که در مقاله تحقیقاتی گزارش شده است امیدوارکننده است و دری را به روی یک تغییر پارادایم بالقوه در رمزگشایی مدل زبانی باز می کند که ممکن است به هجوم برنامه های جدید دامن بزند.
جیکوب این مقاله را با یکیانگ شن، محقق آزمایشگاه واتسون MIT-IBM و استادیاران گروه مهندسی برق و علوم کامپیوتر MIT، گابریله فارینا و جاکوب آندریاس، که همچنین یکی از اعضای CSAIL است، نوشت. آنها کار خود را در کنفرانس بین المللی ارائه کردند روی Representations Learning (ICLR) در اوایل این ماه، جایی که به عنوان “کاغذ برجسته” برجسته شد. این تحقیق همچنین “جایزه بهترین مقاله” را در کارگاه NeurIPS R0-FoMo در دسامبر 1402 دریافت کرد.
منبع: https://news.mit.edu/1403/consensus-game-elevates-ai-text-comprehension-generation-skills-0514
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم
زمان انتشار: 1403-05-15 01:40:15