از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
محققان از مدلهای زبان بزرگ برای کمک به روباتها در جهتیابی استفاده میکنند
ممکن است روزی بخواهید ربات خانگی شما باری از لباس های کثیف را به طبقه پایین حمل کند و آنها را در ماشین لباسشویی در گوشه سمت چپ زیرزمین قرار دهد. ربات باید دستورالعمل های شما را با مشاهدات بصری خود ترکیب کند تا مراحلی را که برای تکمیل این کار باید طی کند، تعیین کند.
برای یک عامل هوش مصنوعی، گفتن این کار آسان تر از انجام آن است. رویکردهای کنونی اغلب از چندین مدل یادگیری ماشینی دست ساز برای مقابله با بخشهای مختلف کار استفاده میکنند که برای ساختن آنها به تلاش و تخصص انسانی زیادی نیاز است. این روشها، که از بازنماییهای بصری برای تصمیمگیری مستقیم برای ناوبری استفاده میکنند، حجم عظیمی از دادههای بصری را برای آموزش میخواهند که اغلب به سختی به دست میآیند.
برای غلبه بر این چالشها، محققان MIT و آزمایشگاه هوش مصنوعی MIT-IBM Watson AI یک روش ناوبری ابداع کردند که نمایشهای بصری را به قطعات زبان تبدیل میکند، که سپس به یک مدل زبان بزرگ داده میشود که تمام بخشهای وظیفه ناوبری چند مرحلهای را انجام میدهد.
روش آنها بهجای رمزگذاری ویژگیهای بصری از تصاویر محیط اطراف ربات بهعنوان نمایشهای بصری، که از نظر محاسباتی فشرده است، زیرنویسهای متنی ایجاد میکند که نقطهنظر ربات را توصیف میکند. یک مدل زبان بزرگ از شرحها برای پیشبینی اقداماتی که یک ربات باید برای انجام دستورالعملهای مبتنی بر زبان کاربر انجام دهد، استفاده میکند.
از آنجایی که روش آنها از بازنمایی های صرفاً مبتنی بر زبان استفاده می کند، آنها می توانند از یک مدل زبان بزرگ برای تولید موثر حجم عظیمی از داده های آموزشی مصنوعی استفاده کنند.
در حالی که این رویکرد از تکنیکهایی که از ویژگیهای بصری استفاده میکنند بهتر عمل نمیکند، اما در موقعیتهایی که فاقد دادههای بصری کافی برای آموزش هستند، عملکرد خوبی دارد. محققان دریافتند که ترکیب ورودیهای مبتنی بر زبان با سیگنالهای بصری منجر به عملکرد بهتر ناوبری میشود.
«با استفاده صرف از زبان به عنوان بازنمایی ادراکی، رویکرد ما سادهتر است. بوون پن، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی مقاله می گوید: از آنجایی که همه ورودی ها می توانند به عنوان زبان رمزگذاری شوند، می توانیم یک مسیر قابل درک برای انسان ایجاد کنیم. روی این رویکرد.
از نویسندگان همکار پان می توان به مشاور او، اود اولیوا، مدیر تعامل در صنعت استراتژیک در کالج محاسباتی MIT شوارتزمن، مدیر MIT-IBM واتسون AI Lab، و یک دانشمند تحقیقاتی ارشد در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) اشاره کرد. ) فیلیپ ایزولا، دانشیار EECS و عضو CSAIL؛ نویسنده ارشد یون کیم، استادیار EECS و عضو CSAIL. و دیگران در آزمایشگاه هوش مصنوعی MIT-IBM Watson و کالج دارتموث. این تحقیق در کنفرانس بخش آمریکای شمالی انجمن زبانشناسی محاسباتی ارائه خواهد شد.
حل مشکل بینایی با زبان
پان میگوید از آنجایی که مدلهای زبان بزرگ قویترین مدلهای یادگیری ماشینی موجود هستند، محققان به دنبال این بودند که آنها را در کار پیچیدهای که به نام ناوبری بینایی و زبان شناخته میشود، بگنجانند.
اما چنین مدل هایی ورودی های مبتنی بر متن را دریافت می کنند و نمی توانند process داده های بصری از دوربین یک ربات بنابراین، تیم باید راهی برای استفاده از زبان بیابد.
تکنیک آنها از یک مدل زیرنویس ساده برای به دست آوردن توضیحات متنی مشاهدات بصری ربات استفاده می کند. این زیرنویسها با دستورالعملهای مبتنی بر زبان ترکیب میشوند و به یک مدل زبان بزرگ وارد میشوند، که تصمیم میگیرد ربات بعدی چه مرحله ناوبری را انجام دهد.
مدل زبان بزرگ شرح صحنه ای را که ربات باید پس از اتمام آن مرحله ببیند، ارائه می دهد. این برای به روز رسانی تاریخچه مسیر استفاده می شود تا ربات بتواند جایی که بوده است را پیگیری کند.
مدل این فرآیندها را تکرار میکند تا مسیری را ایجاد کند که ربات را در یک مرحله به هدفش هدایت میکند.
برای ساده کردن processمحققان الگوهایی را طراحی کردند تا اطلاعات مشاهده به شکل استاندارد به مدل ارائه شود – به عنوان مجموعه ای از انتخاب هایی که ربات می تواند بر اساس آن انجام دهد. روی اطراف آن
به عنوان مثال، یک عنوان ممکن است بگوید “در 30 درجه سمت چپ شما یک در است که یک گیاه گلدانی در کنار آن قرار دارد، در پشت شما یک دفتر کوچک با یک میز و یک کامپیوتر” و غیره. مدل انتخاب می کند که آیا ربات باید به سمت حرکت کند یا خیر. در یا دفتر
پان میگوید: «یکی از بزرگترین چالشها این بود که چگونه میتوان این نوع اطلاعات را به زبانی به روشی مناسب رمزگذاری کرد تا به نماینده بفهماند وظیفه چیست و چگونه باید پاسخ دهد.
مزایای زبان
هنگامی که آنها این رویکرد را آزمایش کردند، در حالی که نمی توانست از تکنیک های مبتنی بر بینایی بهتر عمل کند، دریافتند که چندین مزیت دارد.
اولاً، از آنجا که متن به منابع محاسباتی کمتری نسبت به دادههای تصویر پیچیده نیاز دارد، روش آنها میتواند برای تولید سریع دادههای آموزشی مصنوعی استفاده شود. در یک آزمایش، آنها 10000 مسیر مصنوعی را ایجاد کردند روی 10 مسیر بصری در دنیای واقعی
این تکنیک همچنین میتواند شکافی را که میتواند مانع از عملکرد یک عامل آموزشدیده با محیط شبیهسازی شده در دنیای واقعی شود، پر کند. این شکاف اغلب به این دلیل رخ می دهد که تصاویر تولید شده توسط کامپیوتر به دلیل عناصری مانند نور یا رنگ می توانند کاملاً متفاوت از صحنه های دنیای واقعی به نظر برسند. پان میگوید، اما تشخیص زبانی که تصویر مصنوعی را در مقابل تصویر واقعی توصیف میکند، بسیار سختتر است.
همچنین، بازنمایی هایی که مدل آنها استفاده می کند برای انسان آسان تر است زیرا به زبان طبیعی نوشته شده اند.
اگر نماینده نتواند به هدف خود برسد، ما راحت تر می توانیم تعیین کنیم که کجا شکست خورده است و چرا شکست خورده است. شاید اطلاعات تاریخچه به اندازه کافی واضح نباشد یا مشاهده برخی جزئیات مهم را نادیده بگیرد.
علاوه بر این، روش آنها را می توان به راحتی برای وظایف و محیط های مختلف به کار برد زیرا تنها از یک نوع ورودی استفاده می کند. تا زمانی که داده ها می توانند به عنوان زبان رمزگذاری شوند، می توانند از همان مدل بدون ایجاد هیچ گونه تغییری استفاده کنند.
اما یک نقطه ضعف این است که روش آنها به طور طبیعی برخی از اطلاعات را که توسط مدل های مبتنی بر بینایی گرفته می شود، مانند اطلاعات عمق، از دست می دهد.
با این حال، محققان از دیدن اینکه ترکیب بازنماییهای مبتنی بر زبان با روشهای مبتنی بر دید، توانایی یک عامل را در جهتیابی بهبود میبخشد، شگفتزده شدند.
او میگوید: «شاید این بدان معناست که زبان میتواند اطلاعات سطح بالاتری را نسبت به آنچه که با ویژگیهای بینایی خالص نمیتوان دریافت کرد، به دست آورد.
این حوزه ای است که محققان می خواهند به کاوش آن ادامه دهند. آنها همچنین می خواهند یک عنوان ناوبری گرا ایجاد کنند که می تواند عملکرد روش را افزایش دهد. علاوه بر این، آنها میخواهند توانایی مدلهای زبانی بزرگ برای نشان دادن آگاهی فضایی را بررسی کنند و ببینند که چگونه میتواند به ناوبری مبتنی بر زبان کمک کند.
این تحقیق تا حدی توسط آزمایشگاه هوش مصنوعی MIT-IBM Watson AI تامین می شود.
منبع: https://news.mit.edu/1403/researchers-use-large-language-models-to-help-robots-navigate-0612
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم
زمان انتشار: 1403-06-13 16:13:08