سرور مجازی NVMe

تکنیک قابلیت‌های استدلال مدل‌های زبان بزرگ را بهبود می‌بخشد

توسط مهران در خرداد 26, 1403

تکنیک قابلیت‌های استدلال مدل‌های زبان بزرگ را بهبود می‌بخشد

زمان لازم برای مطالعه: 5 دقیقه

مدل‌های زبان بزرگ مانند مدل‌هایی که ChatGPT را تقویت می‌کنند، عملکرد چشمگیری از خود نشان داده‌اند روی کارهایی مانند تهیه پیش نویس خلاصه حقوقی، تجزیه و تحلیل احساسات نظرات مشتریان، یا ترجمه اسناد به زبان های مختلف.

این مدل‌های یادگیری ماشینی معمولاً فقط از زبان طبیعی استفاده می‌کنند process اطلاعات و پاسخ به پرسش‌ها، که می‌تواند انجام وظایفی را که نیاز به استدلال عددی یا نمادین دارد، دشوار کند.

به عنوان مثال، یک مدل زبان بزرگ ممکن است بتواند فهرستی از روسای جمهور اخیر ایالات متحده و روز تولد آنها را به خاطر بسپارد و بخواند، اما همان مدل ممکن است اگر این سوال پرسیده شود که “رؤسای جمهور ایالات متحده که پس از سال 1950 انتخاب شده اند متولد شده اند، ممکن است شکست بخورد.” روی چهارشنبه؟» (پاسخ جیمی کارتر است.)

محققان MIT و جاهای دیگر تکنیک جدیدی را پیشنهاد کرده‌اند که مدل‌های بزرگ زبان را قادر می‌سازد تا با تولید برنامه‌ها، زبان طبیعی، ریاضی و تحلیل داده‌ها و وظایف استدلال نمادین را حل کنند.

رویکرد آنها که برنامه‌های تعبیه‌شده با زبان طبیعی (NLEPs) نامیده می‌شود، شامل تحریک یک مدل زبان برای ایجاد و اجرای یک برنامه پایتون برای حل پرس و جوی کاربر و سپس خروجی راه‌حل به عنوان زبان طبیعی است.

آنها دریافتند که NLEP ها مدل های زبان بزرگ را برای دستیابی به دقت بالاتر فعال می کنند روی طیف وسیعی از وظایف استدلال این رویکرد همچنین قابل تعمیم است، به این معنی که می توان از یک دستور NLEP برای چندین کار استفاده مجدد کرد.

NLEP ها همچنین شفافیت را بهبود می بخشند، زیرا کاربر می تواند برنامه را بررسی کند تا ببیند مدل دقیقاً چگونه در مورد پرس و جو استدلال می کند و اگر مدل پاسخ اشتباهی داد، برنامه را برطرف می کند.

ما می خواهیم هوش مصنوعی استدلال پیچیده را به گونه ای شفاف و قابل اعتماد انجام دهد. هنوز راه درازی در پیش است، اما ما نشان داده‌ایم که ترکیب قابلیت‌های برنامه‌نویسی و زبان طبیعی در مدل‌های زبان بزرگ، اولین قدم بالقوه بسیار خوبی به سوی آینده‌ای است که مردم می‌توانند به طور کامل آنچه را که در حال انجام است درک کنند و به آن اعتماد کنند. روی در داخل مدل هوش مصنوعی آنها،” دکتر Hongyin Luo، فوق دکترای MIT و نویسنده ارشد مقاله می گوید. روی NLEP ها

لو ملحق شد روی مقاله توسط نویسندگان همکار تیانهوا ژانگ، دانشجوی کارشناسی ارشد در دانشگاه چینی هنگ کنگ. و Jiaxin Ge، دانشجوی کارشناسی در دانشگاه پکن. یون کیم، استادیار دپارتمان مهندسی برق و علوم کامپیوتر MIT و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL). نویسنده ارشد جیمز گلس، دانشمند پژوهشی ارشد و رئیس گروه سیستم های زبان گفتاری در CSAIL. و دیگران. این تحقیق در کنفرانس سالانه بخش آمریکای شمالی انجمن زبان‌شناسی محاسباتی ارائه خواهد شد.

پیشنهاد می‌کنیم بخوانید: مقدمه ای بر ماژول Pickle Python

حل مسئله با برنامه

بسیاری از مدل‌های محبوب زبان بزرگ با پیش‌بینی کلمه یا نشانه بعدی، با توجه به ورودی زبان طبیعی، کار می‌کنند. در حالی که مدل هایی مانند GPT-4 را می توان برای نوشتن برنامه ها استفاده کرد، آنها این برنامه ها را در زبان طبیعی جاسازی می کنند که می تواند منجر به خطا در استدلال یا نتایج برنامه شود.

با NLEPs، محققان MIT رویکرد مخالف را در پیش گرفتند. آنها مدل را تشویق می کنند تا یک برنامه گام به گام به طور کامل در کد پایتون تولید کند و سپس زبان طبیعی لازم را در داخل برنامه جاسازی کند.

NLEP یک الگوی حل مسئله با چهار مرحله است. ابتدا، مدل بسته‌ها یا توابع لازم را فراخوانی می‌کند، باید کار را حل کند. مرحله دوم شامل وارد کردن بازنمایی های زبان طبیعی از دانش مورد نیاز کار است (مانند لیستی از تولدهای روسای جمهور ایالات متحده). برای مرحله سوم، مدل تابعی را پیاده سازی می کند که پاسخ را محاسبه می کند. و برای مرحله آخر، مدل نتیجه را به عنوان یک خط زبان طبیعی با تجسم خودکار داده ها، در صورت نیاز، خروجی می دهد.

لو می گوید: «این مانند یک ماشین حساب دیجیتال است که تا زمانی که برنامه درست باشد، همیشه نتیجه محاسباتی صحیح را به شما می دهد.

کاربر می تواند به راحتی برنامه را بررسی کرده و هر گونه خطا در کد را مستقیماً برطرف کند، نه اینکه نیاز به اجرای مجدد کل مدل برای عیب یابی داشته باشد.

این رویکرد همچنین کارایی بیشتری را نسبت به برخی روش‌های دیگر ارائه می‌دهد. اگر یک کاربر سوالات مشابه زیادی داشته باشد، می تواند یک برنامه اصلی تولید کند و سپس بدون نیاز به اجرای مکرر مدل، متغیرهای خاصی را جایگزین کند.

برای تحریک مدل برای تولید یک NLEP، محققان به آن دستورالعمل کلی برای نوشتن یک برنامه Python، ارائه دو مثال NLEP (یکی با ریاضی و دیگری با زبان طبیعی) و یک سوال تستی را ارائه می‌دهند.

«معمولاً، هنگامی که مردم این نوع دستورات چند شات را انجام می‌دهند، هنوز باید برای هر کاری دستور طراحی کنند. ما متوجه شدیم که می‌توانیم یک اعلان برای بسیاری از کارها داشته باشیم، زیرا این یک اعلان نیست که حل یک مشکل را به LLM آموزش می‌دهد، بلکه یک اعلان است که به LLM می‌آموزد که بسیاری از مسائل را با نوشتن یک برنامه حل کند.»

پیشنهاد می‌کنیم بخوانید: گسترش ادراک ربات

لئونید کارلینسکی، دانشمند اصلی در آزمایشگاه هوش مصنوعی MIT-IBM Watson می‌گوید: «داشتن مدل‌های زبانی با کد، فرصت‌های زیادی را برای استفاده از ابزار، اعتبارسنجی خروجی، درک ساختارمندتر از قابلیت‌ها و طرز تفکر مدل و موارد دیگر باز می‌کند.

“اینجا جادو نیست”

NLEP ها هنگام تشویق به GPT-4 برای حل طیف وسیعی از وظایف استدلال نمادین، مانند ردیابی اشیاء به هم ریخته یا انجام یک بازی 24 تایی، و همچنین وظایف دنبال کردن دستورالعمل و طبقه بندی متن، به دقت بیش از 90 درصد دست یافتند. محققان دریافتند که NLEP ها حتی 30 درصد دقت بیشتری نسبت به روش های تحریک کاری خاص نشان می دهند. این روش همچنین بهبودهایی را نسبت به LLMهای منبع باز نشان داد.

در کنار افزایش دقت مدل های زبان بزرگ، NLEP ها می توانند حریم خصوصی داده ها را نیز بهبود بخشند. از آنجایی که برنامه های NLEP به صورت محلی اجرا می شوند، نیازی نیست که داده های حساس کاربر به شرکتی مانند OpenAI یا Google ارسال شود تا توسط یک مدل پردازش شود.

علاوه بر این، NLEP ها می توانند مدل های زبان کوچک را قادر سازند تا بدون نیاز به آموزش مجدد یک مدل برای یک کار خاص، عملکرد بهتری داشته باشند، که می تواند هزینه بر باشد. process.

“اینجا هیچ جادویی وجود ندارد. ما مدل زبانی گران‌تر یا فانتزی نداریم. تنها کاری که ما انجام می‌دهیم این است که از تولید برنامه به جای تولید زبان طبیعی استفاده می‌کنیم و می‌توانیم عملکرد آن را به طور قابل توجهی بهتر کنیم.»

با این حال، یک NLEP متکی است روی قابلیت تولید برنامه مدل، بنابراین این تکنیک برای مدل های کوچکتر که آموزش دیده اند به خوبی کار نمی کند روی مجموعه داده های محدود در آینده، محققان قصد دارند روش‌هایی را مطالعه کنند که می‌توانند مدل‌های زبانی کوچک‌تر NLEP‌های مؤثرتری تولید کنند. علاوه بر این، آنها می خواهند تأثیر تغییرات سریع را بررسی کنند روی NLEP ها برای افزایش استحکام فرآیندهای استدلال مدل.

این تحقیق تا حدی توسط مرکز هوش ادراکی و تعاملی هنگ کنگ پشتیبانی شده است.

منبع: https://news.mit.edu/1403/technique-improves-reasoning-capabilities-large-language-models-0614

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-06-15 04:46:09

امتیاز شما به این مطلب