از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
مهارت های استدلال مدل های زبان بزرگ اغلب بیش از حد برآورد می شود
وقتی صحبت از هوش مصنوعی می شود، ظاهر می تواند فریبنده باشد. رمز و راز پیرامون عملکرد درونی مدلهای زبانی بزرگ (LLM) از اندازه وسیع، روشهای آموزشی پیچیده، رفتارهای غیرقابل پیشبینی و تفسیرپذیری گریزان آنها ناشی میشود.
محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) اخیراً به ذره بین ضرب المثل نگاه کردند تا روش عملکرد LLM ها را با انواع وظایف مختلف بررسی کنند و بینش های جالبی را در مورد تعامل بین مهارت های به خاطر سپردن و استدلال آشکار کردند. معلوم می شود که توانایی های استدلال آنها اغلب بیش از حد برآورد می شود.
این مطالعه «وظایف پیشفرض» را مقایسه کرد، وظایف رایجی که یک مدل آموزش داده و آزمایش میشود onبا «سناریوهای خلاف واقع»، موقعیتهای فرضی انحراف از شرایط پیشفرض – که معمولاً میتوان انتظار داشت مدلهایی مانند GPT-4 و Claude با آنها کنار بیایند. محققان برخی از آزمایشها را در خارج از محدوده راحتی مدلها با تغییر دادن وظایف موجود به جای ایجاد وظایف کاملاً جدید توسعه دادند. آنها از مجموعه داده ها و معیارهای مختلفی استفاده کردند که به طور خاص برای جنبه های مختلف قابلیت های مدل ها برای مواردی مانند حساب، شطرنج، ارزیابی کد، پاسخ دادن به سؤالات منطقی و غیره طراحی شده بودند.
وقتی کاربران با مدلهای زبان تعامل دارند، هر حسابی معمولاً در پایه 10 قرار میگیرد که پایه عددی آشنا برای مدلها است. اما با توجه به اینکه آنها خوب عمل می کنند روی base-10 می تواند تصور نادرستی از اینکه آنها علاوه بر این دارای شایستگی قوی هستند به ما بدهد. منطقاً، اگر آنها واقعاً مهارتهای جمعآوری خوبی داشته باشند، انتظار عملکرد قابلاعتماد بالایی در همه پایههای اعداد، مشابه ماشینحسابها یا رایانهها دارید. در واقع، این تحقیق نشان داد که این مدلها آنقدر که بسیاری در ابتدا فکر میکردند قوی نیستند. عملکرد بالای آنها محدود به انواع کارهای رایج است و از افت عملکرد مداوم و شدید در سناریوهای خلاف واقع ناآشنا رنج می برند، که نشان دهنده فقدان توانایی جمع قابل تعمیم است.
این الگو برای بسیاری از کارهای دیگر مانند انگشت گذاری آکورد موسیقی، استدلال فضایی، و حتی مشکلات شطرنج که در آن موقعیت های شروع مهره ها کمی تغییر کرده بود، صادق بود. در حالی که انتظار میرود بازیکنان انسانی همچنان بتوانند قانونی بودن حرکات را در سناریوهای تغییر یافته تعیین کنند (با توجه به زمان کافی)، مدلها با مشکل مواجه شدند و نتوانستند بهتر از حدس زدن تصادفی عمل کنند، به این معنی که توانایی محدودی برای تعمیم به موقعیتهای ناآشنا دارند. و بسیاری از عملکرد آنها روی وظایف استاندارد احتمالاً به دلیل توانایی های کلی کار نیست، بلکه به دلیل تطبیق بیش از حد، یا به خاطر سپردن مستقیم آن چیزی است که در داده های آموزشی خود دیده اند.
ما یک جنبه شگفتانگیز از مدلهای زبان بزرگ را کشف کردهایم: آنها در سناریوهای آشنا، تقریباً مانند یک مسیر فرسوده، عالی هستند، اما زمانی که زمین ناآشنا میشود، با مشکل مواجه میشوند. ژائوفنگ وو، دانشجوی دکترای MIT در رشته مهندسی برق و علوم کامپیوتر، وابسته به CSAIL، و نویسنده اصلی میگوید: این بینش بسیار مهم است زیرا ما در تلاش برای افزایش سازگاری این مدلها و گسترش افق کاربرد آنها هستیم. روی مقاله جدید در مورد تحقیق «از آنجایی که هوش مصنوعی در جامعه ما به طور فزاینده ای در همه جا حاضر می شود، باید به طور قابل اعتمادی سناریوهای مختلف را، چه آشنا و چه غیر آشنا، مدیریت کند. ما امیدواریم که این بینش ها روزی به طراحی LLM های آینده با استحکام بهتر کمک کند.
با وجود بینش های به دست آمده، البته محدودیت هایی وجود دارد. تمرکز مطالعه روی وظایف و تنظیمات خاص طیف کاملی از چالشهایی را که مدلها به طور بالقوه میتوانند در برنامههای کاربردی دنیای واقعی با آنها مواجه شوند، نشان نمیدهند، که نشاندهنده نیاز به محیطهای آزمایشی متنوعتر است. کار آینده می تواند شامل گسترش دامنه وظایف و شرایط خلاف واقع برای کشف نقاط ضعف احتمالی بیشتر باشد. این می تواند به معنای نگاه کردن به سناریوهای پیچیده تر و کمتر رایج باشد. این تیم همچنین میخواهد با ایجاد روشهایی برای درک بهتر منطق پشت فرآیندهای تصمیمگیری مدلها، قابلیت تفسیر را بهبود بخشد.
هائو پنگ، استادیار دانشگاه ایلینویز در Urbana-Champaign میگوید: «با افزایش مقیاسهای مدلهای زبان، درک دادههای آموزشی آنها حتی برای مدلهای باز، چه رسد به مدلهای اختصاصی، چالشبرانگیزتر میشود. جامعه در مورد اینکه آیا این مدلها واقعاً به کارهای نادیده تعمیم میدهند یا ظاهراً با به خاطر سپردن دادههای آموزشی موفق میشوند، متحیر مانده است. این مقاله گام های مهمی در پرداختن به این سوال برداشته است. مجموعهای از ارزیابیهای خلاف واقع با دقت طراحی شده ایجاد میکند و بینش تازهای در مورد قابلیتهای پیشرفته LLM ارائه میدهد. این نشان میدهد که توانایی آنها برای حل کارهای نادیده شاید بسیار محدودتر از آن چیزی است که بسیاری پیشبینی میکنند. این پتانسیل الهام بخشیدن به تحقیقات آینده برای شناسایی حالت های شکست مدل های امروزی و توسعه مدل های بهتر را دارد.
نویسندگان دیگر عبارتند از ناجونگ کیم، که استادیار دانشگاه بوستون و محقق مدعو گوگل است، و هفت شرکت وابسته به CSAIL: دانشجویان دکتری مهندسی برق و علوم کامپیوتر MIT (EECS)، لینلو کیو، الکسیس راس، اکین آکیورک SM ’21، و بویوان چن. بایلین وانگ، پسادکتر سابق و محقق هوش مصنوعی اپل. و استادیاران EECS، جاکوب آندریاس و یون کیم.
مطالعه این تیم تا حدی توسط آزمایشگاه هوش مصنوعی MIT–IBM Watson، MIT Quest for Intelligence و بنیاد ملی علوم پشتیبانی شد. این تیم ماه گذشته این کار را در بخش آمریکای شمالی انجمن زبانشناسی محاسباتی (NAACL) ارائه کرد.
منبع: https://news.mit.edu/1403/reasoning-skills-large-language-models-often-overestimated-0711
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم
زمان انتشار: 1403-07-12 17:16:05