از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
مانند مغز انسان ، مدل های بزرگ زبان در مورد داده های متنوع به روش کلی استدلال می کنند

در حالی که مدل های زبانی اولیه فقط می توانستند process متن ، مدل های زبان بزرگ معاصر اکنون کارهای بسیار متنوعی را انجام می دهند روی انواع مختلف داده. به عنوان مثال ، LLM ها می توانند بسیاری از زبانها را درک کنند ، کد رایانه را تولید کنند ، مشکلات ریاضی را حل کنند یا به سؤالات مربوط به تصاویر و صدا پاسخ دهند.
محققان MIT برای درک بهتر روش عملکرد آنها در مورد عملکرد داخلی LLMS تحقیق کردند process چنین داده های مختلفی ، و شواهدی پیدا کرد که برخی از شباهت ها را با مغز انسان به اشتراک می گذارند.
دانشمندان علوم اعصاب معتقدند که مغز انسان در لوب تمپورال قدامی “توپی معنایی” دارد که اطلاعات معنایی را از روشهای مختلف مانند داده های بصری و ورودی های لمسی ادغام می کند. این مرکز معنایی به “سخنگوهای” خاص که اطلاعات را به هاب منتقل می کنند ، متصل است. محققان MIT دریافتند که LLM ها با پردازش انتزاعی داده ها از روشهای متنوع به روشی مرکزی و عمومی ، از مکانیسم مشابهی استفاده می کنند. به عنوان مثال ، مدلی که انگلیسی به عنوان زبان غالب خود دارد متکی است روی انگلیسی به عنوان یک رسانه مرکزی به process ورودی به زبان ژاپنی یا دلیل در مورد حسابی ، کد رایانه و غیره. علاوه بر این ، محققان نشان می دهند که می توانند با استفاده از متن در زبان غالب مدل برای تغییر خروجی های خود در مرکز معنایی یک مدل مداخله کنند ، حتی اگر مدل در حال پردازش داده ها به زبان های دیگر باشد. بشر
این یافته ها می تواند به دانشمندان کمک کند تا LLM های آینده را آموزش دهند که قادر به کنترل داده های متنوع هستند.
“LLM ها جعبه های بزرگ سیاه هستند. آنها به عملکرد بسیار چشمگیری رسیده اند ، اما ما دانش بسیار کمی در مورد مکانیسم های کاری داخلی آنها داریم. من امیدوارم که این یک گام اولیه برای درک بهتر روش کار آنها باشد تا ما بتوانیم بر روی آنها پیشرفت کنیم و در صورت لزوم آنها را کنترل کنیم. ” روی این تحقیق
نویسندگان وی شامل Xinyan Velocity Yu ، دانشجوی فارغ التحصیل در دانشگاه کالیفرنیای جنوبی (USC) است. دانی یوگاتاما ، استادیار USC ؛ جیاسن لو ، دانشمند تحقیقاتی در اپل ؛ و نویسنده ارشد یون کیم ، استادیار EECS در MIT و عضو آزمایشگاه علوم کامپیوتر و اطلاعات مصنوعی (CSAIL). این تحقیق در کنفرانس بین المللی ارائه خواهد شد روی یادگیری بازنمایی.
ادغام داده های متنوع
محققان این مطالعه جدید را بر اساس کار قبلی مستقر کردند که اظهار داشت که LLM های انگلیسی محور از انگلیسی برای انجام فرایندهای استدلال استفاده می کنند روی زبان های مختلف
وو و همکارانش این ایده را گسترش دادند و یک مطالعه عمیق را در مورد مکانیسم های LLMS استفاده کردند process داده های متنوع
LLM ، که از بسیاری از لایه های به هم پیوسته تشکیل شده است ، متن ورودی را به کلمات یا زیر کلمات به نام نشانه ها تقسیم می کند. این مدل نمایشی را به هر نشانه اختصاص می دهد ، که به آن امکان می دهد روابط بین نشانه ها را کشف کند و کلمه بعدی را در یک دنباله ایجاد کند. در مورد تصاویر یا صوتی ، این نشانه ها با مناطق خاص یک تصویر یا بخش هایی از کلیپ صوتی مطابقت دارند.
محققان دریافتند که لایه های اولیه مدل process داده ها در زبان یا روش خاص خود ، مانند سخنگوهای خاص در مغز انسان. سپس ، LLM نشانه ها را به بازنمایی های آگنوستیک تبدیل می کند ، زیرا در مورد آنها در کل لایه های داخلی خود دلایل می کند ، شبیه به چگونگی ادغام توپی معنایی مغز ، اطلاعات متنوعی را ادغام می کند.
این مدل علیرغم نوع داده خود ، از جمله تصاویر ، صوتی ، کد رایانه و مشکلات حسابی ، بازنمودهای مشابهی را به ورودی ها با معانی مشابه اختصاص می دهد. حتی اگر یک تصویر و عنوان متن آن انواع داده های متمایز باشد ، زیرا آنها همان معنی را دارند ، LLM به آنها بازنمایی های مشابهی را اختصاص می دهد.
به عنوان مثال ، قبل از تولید خروجی به زبان چینی ، یک LLM غالب انگلیسی در مورد ورودی متن چینی به زبان انگلیسی “فکر می کند”. این مدل تمایل به استدلال مشابهی برای ورودی های غیر متنی مانند کد رایانه ، مشکلات ریاضی یا حتی داده های چند مدلی دارد.
برای آزمایش این فرضیه ، محققان یک جفت جمله را با همان معنی تصویب کردند اما از طریق مدل به دو زبان مختلف نوشته شده است. آنها اندازه گیری کردند که نمایش های مدل برای هر جمله چقدر مشابه است.
سپس آنها مجموعه دوم آزمایشات را انجام دادند که در آن آنها یک متن مدل مسلط انگلیسی را به زبانی متفاوت مانند چینی تغذیه کردند و اندازه گیری کردند که نمای داخلی آن با انگلیسی در مقابل چینی ها چقدر مشابه است. محققان آزمایش های مشابهی را برای انواع دیگر داده ها انجام دادند.
آنها به طور مداوم دریافتند که بازنمایی مدل برای جملات با معانی مشابه مشابه است. علاوه بر این ، در بسیاری از انواع داده ها ، نشانه های پردازش شده در لایه های داخلی آن بیشتر شبیه به نشانه های انگلیسی محور نسبت به نوع داده ورودی بودند.
وو می گوید: “بسیاری از این انواع داده های ورودی با زبان بسیار متفاوت به نظر می رسند ، بنابراین ما بسیار شگفت زده شدیم که وقتی مدل ، به عنوان مثال ، عبارات ریاضی یا برنامه نویسی را پردازش می کند ، می توانیم انگلیسی های انگلیسی را بررسی کنیم.”
استفاده از مرکز معنایی
محققان فکر می کنند که LLMS ممکن است این استراتژی توپی معنایی را در طول آموزش بیاموزد زیرا این یک روش اقتصادی است process داده های متنوع
وی گفت: “هزاران زبان در آنجا وجود دارد ، اما دانش زیادی مانند دانش عوام یا دانش واقعی به اشتراک گذاشته می شود. این مدل نیازی به کپی کردن این دانش در زبان ها ندارد. “
محققان همچنین هنگام پردازش زبان های دیگر ، در لایه های داخلی مدل با استفاده از متن انگلیسی سعی کردند. آنها دریافتند که آنها می توانند به طور پیش بینی کننده خروجی های مدل را تغییر دهند ، حتی اگر این خروجی ها به زبان های دیگر باشند.
دانشمندان می توانند از این پدیده برای تشویق مدل برای به اشتراک گذاشتن هرچه بیشتر اطلاعات در انواع مختلف داده ها استفاده کنند ، و به طور بالقوه باعث افزایش کارایی می شوند.
اما روی از طرف دیگر ، می تواند مفاهیم یا دانش وجود داشته باشد که در بین زبانها یا انواع داده ها قابل ترجمه نباشد ، مانند دانش خاص فرهنگی. دانشمندان ممکن است بخواهند LLM ها در این موارد برخی از مکانیسم های پردازش خاص زبان را داشته باشند.
“چگونه می توانید هر زمان ممکن را به اشتراک بگذارید اما به زبانها نیز اجازه می دهید برخی از مکانیسم های پردازش خاص زبان را داشته باشند؟ که می تواند در کارهای آینده مورد بررسی قرار گیرد روی معماری های مدل ، “وو می گوید.
علاوه بر این ، محققان می توانند از این بینش ها برای بهبود مدل های چند زبانه استفاده کنند. غالباً ، یک مدل غالب انگلیسی که یاد می گیرد به زبان دیگری صحبت کند ، برخی از دقت خود را به زبان انگلیسی از دست می دهد. او می گوید ، درک بهتر از مرکز معنایی LLM می تواند به محققان کمک کند تا از این تداخل زبان جلوگیری کنند.
“درک چگونگی مدل های زبان process ورودی ها در بین زبانها و روشها یک سؤال اساسی در هوش مصنوعی است. این مقاله ارتباط جالبی با علوم اعصاب ایجاد می کند و نشان می دهد که “فرضیه توپی معنایی” پیشنهادی در مدل های زبان مدرن وجود دارد ، جایی که بازنمایی های معنایی مشابه از انواع مختلف داده ها در لایه های میانی مدل ایجاد می شود. ” دانشکده علوم کامپیوتر در دانشگاه تل آویو ، که درگیر این کار نبود. “این فرضیه و آزمایشات به خوبی یافته های آثار قبلی را به هم گره زده و گسترش می دهد و می تواند برای تحقیقات آینده تأثیرگذار باشد روی ایجاد مدلهای چندمادی بهتر و مطالعه پیوندها بین آنها و عملکرد مغز و شناخت در انسان. “
این تحقیق تا حدودی توسط آزمایشگاه MIT-IBM Watson AI تأمین می شود.
منبع: https://news.mit.edu/1404/large-language-models-reason-about-diverse-data-general-way-0219
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم
زمان انتشار: 1404-02-19 22:47:08