سرور مجازی NVMe

استفاده از ایده های نظریه بازی ها برای بهبود قابلیت اطمینان مدل های زبان

توسط مهران در اردیبهشت 26, 1403

استفاده از ایده های نظریه بازی ها برای بهبود قابلیت اطمینان مدل های زبان

زمان لازم برای مطالعه: 5 دقیقه

تصور کنید که شما و یکی از دوستانتان در حال انجام یک بازی هستید که هدف شما این است که فقط با استفاده از جملات مرموز پیام های مخفی را به یکدیگر منتقل کنید. کار دوست شما حدس زدن پیام مخفی پشت جملات شماست. گاهی اوقات، شما مستقیماً سرنخ می‌دهید، و گاهی اوقات، دوستتان باید با پرسیدن سؤالات بله یا خیر در مورد سرنخ‌هایی که داده‌اید، پیام را حدس بزند. چالش این است که هر دوی شما می خواهید مطمئن شوید که یکدیگر را به درستی درک می کنید و موافق هستید روی پیام مخفی

محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) یک “بازی” مشابه برای کمک به بهبود روش درک و تولید متن توسط هوش مصنوعی ایجاد کرده اند. این بازی به عنوان «بازی اجماع» شناخته می‌شود و شامل دو بخش از یک سیستم هوش مصنوعی می‌شود – یک بخش سعی می‌کند جملاتی را تولید کند (مانند ارائه سرنخ‌ها)، و بخش دیگر سعی می‌کند آن جملات را درک و ارزیابی کند (مانند حدس زدن پیام مخفی).

محققان دریافتند که با تلقی این تعامل به عنوان یک بازی، که در آن هر دو بخش هوش مصنوعی تحت قوانین خاصی با هم کار می کنند تا به توافق برسند. روی پیام درست، آنها می توانند به طور قابل توجهی توانایی هوش مصنوعی را برای دادن پاسخ های صحیح و منسجم به سوالات بهبود بخشند. آنها این رویکرد جدید بازی مانند را آزمایش کردند روی انواع کارها مانند درک مطلب، حل مسائل ریاضی و حمل کردن روی مکالمات انجام داد و متوجه شد که به هوش مصنوعی کمک می کند تا در کل عملکرد بهتری داشته باشد.

به طور سنتی، مدل‌های زبانی بزرگ به یکی از دو روش پاسخ می‌دهند: ایجاد پاسخ‌ها به طور مستقیم از مدل (پرس‌وجوی تولیدی) یا استفاده از مدل برای امتیاز دادن به مجموعه‌ای از پاسخ‌های از پیش تعریف‌شده (پرس‌جویی متمایز)، که می‌تواند منجر به نتایج متفاوت و گاهی اوقات ناسازگار شود. با رویکرد مولد «رئیس جمهور آمریکا کیست؟ ممکن است پاسخی سرراست مانند “جو بایدن” بدهد. با این حال، یک پرسش تبعیض آمیز می تواند به نادرستی این واقعیت را در هنگام ارزیابی همان پاسخ، مانند “باراک اوباما” مورد مناقشه قرار دهد.

بنابراین، چگونه می‌توانیم رویه‌های امتیازدهی ناسازگار را برای دستیابی به پیش‌بینی‌های منسجم و کارآمد با هم تطبیق دهیم؟

روش جدیدی را برای کمک به مدل‌های زبان برای درک و تولید متن، مانند یک بازی، تصور کنید. ما یک روش تئوری بازی بدون آموزش ایجاد کرده‌ایم که کل را بررسی می‌کند. process به عنوان یک بازی پیچیده از سرنخ ها و سیگنال ها، که در آن یک مولد سعی می کند با استفاده از زبان طبیعی، پیام درست را به یک ممیز ارسال کند. به جای مهره های شطرنج، آنها از کلمات و جملات استفاده می کنند. الگوریتم رمزگشایی جدید به نام “رتبه بندی تعادل”. این یک نمایش بسیار هیجان‌انگیز است که نشان می‌دهد چگونه وارد کردن استراتژی‌های تئوری بازی به ترکیب می‌تواند با چالش‌های بزرگ در ساخت مدل‌های زبانی قابل اعتمادتر و سازگارتر مقابله کند.”

پیشنهاد می‌کنیم بخوانید: یادگیری ماشینی اسرار آلیاژهای پیشرفته را باز می کند

وقتی الگوریتم تیم در بسیاری از وظایف، مانند درک مطلب، استدلال عامیانه، حل مسئله ریاضی و گفتگو مورد آزمایش قرار گرفت، به طور مداوم میزان عملکرد این مدل‌ها را بهبود بخشید. استفاده از الگوریتم ER با مدل LLaMA-7B حتی از نتایج مدل های بسیار بزرگتر نیز بهتر بود. “با توجه به اینکه آنها در حال حاضر رقابتی هستند، مردم کار کرده اند روی برای مدتی، اما سطح پیشرفت‌هایی که ما شاهد بودیم که می‌توانستیم از مدلی 10 برابر بزرگ‌تر پیشی بگیریم، شگفت‌انگیز بود.»

بازی روی

«دیپلماسی»، یک بازی استراتژیک رومیزی است که در اروپای قبل از جنگ جهانی اول اتفاق می‌افتد، جایی که بازیکنان بدون استفاده از تاس در مورد اتحاد مذاکره می‌کنند، به دوستان خیانت می‌کنند و سرزمین‌ها را تسخیر می‌کنند. روی مهارت، استراتژی و دستکاری بین فردی – اخیراً یک بار دیگر ظاهر شده است. در نوامبر 2022، دانشمندان کامپیوتر، از جمله جیکوب، “سیسرو” را توسعه دادند، یک عامل هوش مصنوعی که به توانایی‌های سطح انسانی در بازی هفت نفره ترکیبی دست می‌یابد، که نیازمند همان مهارت‌های ذکر شده، اما با زبان طبیعی است. ریاضیات پشت این تا حدی الهام بخش بازی اجماع بود.

در حالی که تاریخچه عوامل هوش مصنوعی به مدت طولانی قبل از ورود نرم افزار OpenAI به چت در نوامبر 2022 است، به خوبی مستند شده است که آنها هنوز هم می توانند به عنوان دوست خوب و در عین حال آسیب شناس شما بازی کنند.

سیستم بازی اجماع به عنوان یک توافق به تعادل می رسد و دقت و وفاداری به بینش های اصلی مدل را تضمین می کند. برای دستیابی به این هدف، روش به طور مکرر تعاملات بین مؤلفه های مولد و تمایز را تنظیم می کند تا زمانی که به یک اجماع برسند. روی پاسخی که به طور دقیق واقعیت را منعکس کند و با باورهای اولیه آنها همسو باشد. این رویکرد به طور موثر شکاف بین دو روش پرس و جو را پر می کند.

در عمل، اجرای رویکرد بازی اجماع برای پرس و جوی مدل زبان، به ویژه برای وظایف پاسخگویی به پرسش، شامل چالش های محاسباتی قابل توجهی است. به عنوان مثال، هنگام استفاده از مجموعه داده‌هایی مانند MMLU، که دارای هزاران سؤال و پاسخ‌های چند گزینه‌ای هستند، مدل باید مکانیزم را برای هر پرس و جو اعمال کند. سپس باید بین مؤلفه‌های مولد و افتراقی برای هر سؤال و پاسخ‌های احتمالی آن به اجماع برسد.

پیشنهاد می‌کنیم بخوانید: 3 سؤال: تجسم تحقیقات در عصر هوش مصنوعی

این سیستم با یک حق قبولی در مدرسه مشکل داشت: مشکلات کلمه ریاضی. نمی تواند پاسخ های اشتباهی ایجاد کند، که این یک جزء حیاتی در درک است process از رسیدن به مورد مناسب

«چند سال گذشته شاهد پیشرفت بسیار چشمگیری در تصمیم‌گیری استراتژیک و تولید زبان از سیستم‌های هوش مصنوعی بوده‌ایم، اما ما تازه شروع کرده‌ایم که چگونه این دو را کنار هم قرار دهیم. رتبه بندی تعادل اولین گام در این مسیر است، اما من فکر می کنم که ما می توانیم کارهای زیادی انجام دهیم تا این را به مشکلات پیچیده تر ارتقا دهیم.

یک راه کار آینده شامل تقویت مدل پایه با ادغام خروجی های روش فعلی است. این امر به ویژه امیدوارکننده است زیرا می‌تواند پاسخ‌های واقعی‌تر و منسجم‌تری را در مورد وظایف مختلف، از جمله واقعیت‌سازی و تولید بدون پایان، ارائه دهد. پتانسیل چنین روشی برای بهبود قابل توجه عملکرد مدل پایه بالا است، که می تواند خروجی های قابل اعتمادتر و واقعی تر از ChatGPT و مدل های زبان مشابهی را که مردم روزانه استفاده می کنند، به دست آورد.

اگرچه مدل‌های زبان مدرن، مانند ChatGPT و Gemini، منجر به حل وظایف مختلف از طریق رابط‌های چت شده‌اند، رمزگشایی آماری process احمد بیرامی، دانشمند تحقیقاتی گوگل، که در این کار نقشی نداشت، می‌گوید که پاسخی از چنین مدل‌هایی ایجاد می‌کند، برای دهه‌ها بدون تغییر باقی مانده است. پیشنهاد محققان MIT یک چارچوب نظری بازی نوآورانه برای رمزگشایی از مدل‌های زبانی از طریق حل است. تعادل یک بازی اجماع دستاوردهای عملکرد قابل توجهی که در مقاله تحقیقاتی گزارش شده است امیدوارکننده است و دری را به روی یک تغییر پارادایم بالقوه در رمزگشایی مدل زبانی باز می کند که ممکن است به هجوم برنامه های جدید دامن بزند.

جیکوب این مقاله را با یکیانگ شن، محقق آزمایشگاه واتسون MIT-IBM و استادیاران گروه مهندسی برق و علوم کامپیوتر MIT، گابریله فارینا و جاکوب آندریاس، که همچنین یکی از اعضای CSAIL است، نوشت. آنها کار خود را در کنفرانس بین المللی ارائه کردند روی Representations Learning (ICLR) در اوایل این ماه، جایی که به عنوان “کاغذ برجسته” برجسته شد. این تحقیق همچنین “جایزه بهترین مقاله” را در کارگاه NeurIPS R0-FoMo در دسامبر 1402 دریافت کرد.

منبع: https://news.mit.edu/1403/consensus-game-elevates-ai-text-comprehension-generation-skills-0514

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-05-15 01:40:15

امتیاز شما به این مطلب