سرور مجازی NVMe

مهارت های استدلال مدل های زبان بزرگ اغلب بیش از حد برآورد می شود

توسط مهران در تیر 22, 1403

مهارت های استدلال مدل های زبان بزرگ اغلب بیش از حد برآورد می شود

زمان لازم برای مطالعه: 4 دقیقه

وقتی صحبت از هوش مصنوعی می شود، ظاهر می تواند فریبنده باشد. رمز و راز پیرامون عملکرد درونی مدل‌های زبانی بزرگ (LLM) از اندازه وسیع، روش‌های آموزشی پیچیده، رفتارهای غیرقابل پیش‌بینی و تفسیرپذیری گریزان آنها ناشی می‌شود.

محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) اخیراً به ذره بین ضرب المثل نگاه کردند تا روش عملکرد LLM ها را با انواع وظایف مختلف بررسی کنند و بینش های جالبی را در مورد تعامل بین مهارت های به خاطر سپردن و استدلال آشکار کردند. معلوم می شود که توانایی های استدلال آنها اغلب بیش از حد برآورد می شود.

این مطالعه «وظایف پیش‌فرض» را مقایسه کرد، وظایف رایجی که یک مدل آموزش داده و آزمایش می‌شود onبا «سناریوهای خلاف واقع»، موقعیت‌های فرضی انحراف از شرایط پیش‌فرض – که معمولاً می‌توان انتظار داشت مدل‌هایی مانند GPT-4 و Claude با آن‌ها کنار بیایند. محققان برخی از آزمایش‌ها را در خارج از محدوده راحتی مدل‌ها با تغییر دادن وظایف موجود به جای ایجاد وظایف کاملاً جدید توسعه دادند. آنها از مجموعه داده ها و معیارهای مختلفی استفاده کردند که به طور خاص برای جنبه های مختلف قابلیت های مدل ها برای مواردی مانند حساب، شطرنج، ارزیابی کد، پاسخ دادن به سؤالات منطقی و غیره طراحی شده بودند.

وقتی کاربران با مدل‌های زبان تعامل دارند، هر حسابی معمولاً در پایه 10 قرار می‌گیرد که پایه عددی آشنا برای مدل‌ها است. اما با توجه به اینکه آنها خوب عمل می کنند روی base-10 می تواند تصور نادرستی از اینکه آنها علاوه بر این دارای شایستگی قوی هستند به ما بدهد. منطقاً، اگر آنها واقعاً مهارت‌های جمع‌آوری خوبی داشته باشند، انتظار عملکرد قابل‌اعتماد بالایی در همه پایه‌های اعداد، مشابه ماشین‌حساب‌ها یا رایانه‌ها دارید. در واقع، این تحقیق نشان داد که این مدل‌ها آنقدر که بسیاری در ابتدا فکر می‌کردند قوی نیستند. عملکرد بالای آنها محدود به انواع کارهای رایج است و از افت عملکرد مداوم و شدید در سناریوهای خلاف واقع ناآشنا رنج می برند، که نشان دهنده فقدان توانایی جمع قابل تعمیم است.

پیشنهاد می‌کنیم بخوانید: آیا LLMS می تواند به طراحی داروها و مواد بعدی ما کمک کند؟

این الگو برای بسیاری از کارهای دیگر مانند انگشت گذاری آکورد موسیقی، استدلال فضایی، و حتی مشکلات شطرنج که در آن موقعیت های شروع مهره ها کمی تغییر کرده بود، صادق بود. در حالی که انتظار می‌رود بازیکنان انسانی همچنان بتوانند قانونی بودن حرکات را در سناریوهای تغییر یافته تعیین کنند (با توجه به زمان کافی)، مدل‌ها با مشکل مواجه شدند و نتوانستند بهتر از حدس زدن تصادفی عمل کنند، به این معنی که توانایی محدودی برای تعمیم به موقعیت‌های ناآشنا دارند. و بسیاری از عملکرد آنها روی وظایف استاندارد احتمالاً به دلیل توانایی های کلی کار نیست، بلکه به دلیل تطبیق بیش از حد، یا به خاطر سپردن مستقیم آن چیزی است که در داده های آموزشی خود دیده اند.

ما یک جنبه شگفت‌انگیز از مدل‌های زبان بزرگ را کشف کرده‌ایم: آنها در سناریوهای آشنا، تقریباً مانند یک مسیر فرسوده، عالی هستند، اما زمانی که زمین ناآشنا می‌شود، با مشکل مواجه می‌شوند. ژائوفنگ وو، دانشجوی دکترای MIT در رشته مهندسی برق و علوم کامپیوتر، وابسته به CSAIL، و نویسنده اصلی می‌گوید: این بینش بسیار مهم است زیرا ما در تلاش برای افزایش سازگاری این مدل‌ها و گسترش افق کاربرد آنها هستیم. روی مقاله جدید در مورد تحقیق «از آنجایی که هوش مصنوعی در جامعه ما به طور فزاینده ای در همه جا حاضر می شود، باید به طور قابل اعتمادی سناریوهای مختلف را، چه آشنا و چه غیر آشنا، مدیریت کند. ما امیدواریم که این بینش ها روزی به طراحی LLM های آینده با استحکام بهتر کمک کند.

با وجود بینش های به دست آمده، البته محدودیت هایی وجود دارد. تمرکز مطالعه روی وظایف و تنظیمات خاص طیف کاملی از چالش‌هایی را که مدل‌ها به طور بالقوه می‌توانند در برنامه‌های کاربردی دنیای واقعی با آن‌ها مواجه شوند، نشان نمی‌دهند، که نشان‌دهنده نیاز به محیط‌های آزمایشی متنوع‌تر است. کار آینده می تواند شامل گسترش دامنه وظایف و شرایط خلاف واقع برای کشف نقاط ضعف احتمالی بیشتر باشد. این می تواند به معنای نگاه کردن به سناریوهای پیچیده تر و کمتر رایج باشد. این تیم همچنین می‌خواهد با ایجاد روش‌هایی برای درک بهتر منطق پشت فرآیندهای تصمیم‌گیری مدل‌ها، قابلیت تفسیر را بهبود بخشد.

پیشنهاد می‌کنیم بخوانید: مدل هوش مصنوعی مبتنی بر نمودار، آینده نوآوری را ترسیم می کند

هائو پنگ، استادیار دانشگاه ایلینویز در Urbana-Champaign می‌گوید: «با افزایش مقیاس‌های مدل‌های زبان، درک داده‌های آموزشی آن‌ها حتی برای مدل‌های باز، چه رسد به مدل‌های اختصاصی، چالش‌برانگیزتر می‌شود. جامعه در مورد اینکه آیا این مدل‌ها واقعاً به کارهای نادیده تعمیم می‌دهند یا ظاهراً با به خاطر سپردن داده‌های آموزشی موفق می‌شوند، متحیر مانده است. این مقاله گام های مهمی در پرداختن به این سوال برداشته است. مجموعه‌ای از ارزیابی‌های خلاف واقع با دقت طراحی شده ایجاد می‌کند و بینش تازه‌ای در مورد قابلیت‌های پیشرفته LLM ارائه می‌دهد. این نشان می‌دهد که توانایی آن‌ها برای حل کارهای نادیده شاید بسیار محدودتر از آن چیزی است که بسیاری پیش‌بینی می‌کنند. این پتانسیل الهام بخشیدن به تحقیقات آینده برای شناسایی حالت های شکست مدل های امروزی و توسعه مدل های بهتر را دارد.

نویسندگان دیگر عبارتند از ناجونگ کیم، که استادیار دانشگاه بوستون و محقق مدعو گوگل است، و هفت شرکت وابسته به CSAIL: دانشجویان دکتری مهندسی برق و علوم کامپیوتر MIT (EECS)، لینلو کیو، الکسیس راس، اکین آکیورک SM ’21، و بویوان چن. بایلین وانگ، پسادکتر سابق و محقق هوش مصنوعی اپل. و استادیاران EECS، جاکوب آندریاس و یون کیم.

مطالعه این تیم تا حدی توسط آزمایشگاه هوش مصنوعی MIT–IBM Watson، MIT Quest for Intelligence و بنیاد ملی علوم پشتیبانی شد. این تیم ماه گذشته این کار را در بخش آمریکای شمالی انجمن زبان‌شناسی محاسباتی (NAACL) ارائه کرد.

منبع: https://news.mit.edu/1403/reasoning-skills-large-language-models-often-overestimated-0711

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-07-12 17:16:05

امتیاز شما به این مطلب