سرور مجازی NVMe

محققان از مدل‌های زبان بزرگ برای کمک به روبات‌ها در جهت‌یابی استفاده می‌کنند

توسط مهران در خرداد 24, 1403

محققان از مدل‌های زبان بزرگ برای کمک به روبات‌ها در جهت‌یابی استفاده می‌کنند

زمان لازم برای مطالعه: 5 دقیقه

ممکن است روزی بخواهید ربات خانگی شما باری از لباس های کثیف را به طبقه پایین حمل کند و آنها را در ماشین لباسشویی در گوشه سمت چپ زیرزمین قرار دهد. ربات باید دستورالعمل های شما را با مشاهدات بصری خود ترکیب کند تا مراحلی را که برای تکمیل این کار باید طی کند، تعیین کند.

برای یک عامل هوش مصنوعی، گفتن این کار آسان تر از انجام آن است. رویکردهای کنونی اغلب از چندین مدل یادگیری ماشینی دست ساز برای مقابله با بخش‌های مختلف کار استفاده می‌کنند که برای ساختن آن‌ها به تلاش و تخصص انسانی زیادی نیاز است. این روش‌ها، که از بازنمایی‌های بصری برای تصمیم‌گیری مستقیم برای ناوبری استفاده می‌کنند، حجم عظیمی از داده‌های بصری را برای آموزش می‌خواهند که اغلب به سختی به دست می‌آیند.

برای غلبه بر این چالش‌ها، محققان MIT و آزمایشگاه هوش مصنوعی MIT-IBM Watson AI یک روش ناوبری ابداع کردند که نمایش‌های بصری را به قطعات زبان تبدیل می‌کند، که سپس به یک مدل زبان بزرگ داده می‌شود که تمام بخش‌های وظیفه ناوبری چند مرحله‌ای را انجام می‌دهد.

روش آن‌ها به‌جای رمزگذاری ویژگی‌های بصری از تصاویر محیط اطراف ربات به‌عنوان نمایش‌های بصری، که از نظر محاسباتی فشرده است، زیرنویس‌های متنی ایجاد می‌کند که نقطه‌نظر ربات را توصیف می‌کند. یک مدل زبان بزرگ از شرح‌ها برای پیش‌بینی اقداماتی که یک ربات باید برای انجام دستورالعمل‌های مبتنی بر زبان کاربر انجام دهد، استفاده می‌کند.

از آنجایی که روش آنها از بازنمایی های صرفاً مبتنی بر زبان استفاده می کند، آنها می توانند از یک مدل زبان بزرگ برای تولید موثر حجم عظیمی از داده های آموزشی مصنوعی استفاده کنند.

در حالی که این رویکرد از تکنیک‌هایی که از ویژگی‌های بصری استفاده می‌کنند بهتر عمل نمی‌کند، اما در موقعیت‌هایی که فاقد داده‌های بصری کافی برای آموزش هستند، عملکرد خوبی دارد. محققان دریافتند که ترکیب ورودی‌های مبتنی بر زبان با سیگنال‌های بصری منجر به عملکرد بهتر ناوبری می‌شود.

«با استفاده صرف از زبان به عنوان بازنمایی ادراکی، رویکرد ما ساده‌تر است. بوون پن، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی مقاله می گوید: از آنجایی که همه ورودی ها می توانند به عنوان زبان رمزگذاری شوند، می توانیم یک مسیر قابل درک برای انسان ایجاد کنیم. روی این رویکرد.

از نویسندگان همکار پان می توان به مشاور او، اود اولیوا، مدیر تعامل در صنعت استراتژیک در کالج محاسباتی MIT شوارتزمن، مدیر MIT-IBM واتسون AI Lab، و یک دانشمند تحقیقاتی ارشد در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) اشاره کرد. ) فیلیپ ایزولا، دانشیار EECS و عضو CSAIL؛ نویسنده ارشد یون کیم، استادیار EECS و عضو CSAIL. و دیگران در آزمایشگاه هوش مصنوعی MIT-IBM Watson و کالج دارتموث. این تحقیق در کنفرانس بخش آمریکای شمالی انجمن زبان‌شناسی محاسباتی ارائه خواهد شد.

پیشنهاد می‌کنیم بخوانید: سیستم AI قطعات پروتئینی را پیش بینی می کند که می توانند به یک هدف متصل شوند یا مهار کنند

حل مشکل بینایی با زبان

پان می‌گوید از آنجایی که مدل‌های زبان بزرگ قوی‌ترین مدل‌های یادگیری ماشینی موجود هستند، محققان به دنبال این بودند که آنها را در کار پیچیده‌ای که به نام ناوبری بینایی و زبان شناخته می‌شود، بگنجانند.

اما چنین مدل هایی ورودی های مبتنی بر متن را دریافت می کنند و نمی توانند process داده های بصری از دوربین یک ربات بنابراین، تیم باید راهی برای استفاده از زبان بیابد.

تکنیک آنها از یک مدل زیرنویس ساده برای به دست آوردن توضیحات متنی مشاهدات بصری ربات استفاده می کند. این زیرنویس‌ها با دستورالعمل‌های مبتنی بر زبان ترکیب می‌شوند و به یک مدل زبان بزرگ وارد می‌شوند، که تصمیم می‌گیرد ربات بعدی چه مرحله ناوبری را انجام دهد.

مدل زبان بزرگ شرح صحنه ای را که ربات باید پس از اتمام آن مرحله ببیند، ارائه می دهد. این برای به روز رسانی تاریخچه مسیر استفاده می شود تا ربات بتواند جایی که بوده است را پیگیری کند.

مدل این فرآیندها را تکرار می‌کند تا مسیری را ایجاد کند که ربات را در یک مرحله به هدفش هدایت می‌کند.

برای ساده کردن processمحققان الگوهایی را طراحی کردند تا اطلاعات مشاهده به شکل استاندارد به مدل ارائه شود – به عنوان مجموعه ای از انتخاب هایی که ربات می تواند بر اساس آن انجام دهد. روی اطراف آن

به عنوان مثال، یک عنوان ممکن است بگوید “در 30 درجه سمت چپ شما یک در است که یک گیاه گلدانی در کنار آن قرار دارد، در پشت شما یک دفتر کوچک با یک میز و یک کامپیوتر” و غیره. مدل انتخاب می کند که آیا ربات باید به سمت حرکت کند یا خیر. در یا دفتر

پان می‌گوید: «یکی از بزرگ‌ترین چالش‌ها این بود که چگونه می‌توان این نوع اطلاعات را به زبانی به روشی مناسب رمزگذاری کرد تا به نماینده بفهماند وظیفه چیست و چگونه باید پاسخ دهد.

مزایای زبان

هنگامی که آنها این رویکرد را آزمایش کردند، در حالی که نمی توانست از تکنیک های مبتنی بر بینایی بهتر عمل کند، دریافتند که چندین مزیت دارد.

اولاً، از آنجا که متن به منابع محاسباتی کمتری نسبت به داده‌های تصویر پیچیده نیاز دارد، روش آنها می‌تواند برای تولید سریع داده‌های آموزشی مصنوعی استفاده شود. در یک آزمایش، آنها 10000 مسیر مصنوعی را ایجاد کردند روی 10 مسیر بصری در دنیای واقعی

پیشنهاد می‌کنیم بخوانید: استفاده از هوش مصنوعی مولد برای بهبود تست نرم افزار

این تکنیک همچنین می‌تواند شکافی را که می‌تواند مانع از عملکرد یک عامل آموزش‌دیده با محیط شبیه‌سازی شده در دنیای واقعی شود، پر کند. این شکاف اغلب به این دلیل رخ می دهد که تصاویر تولید شده توسط کامپیوتر به دلیل عناصری مانند نور یا رنگ می توانند کاملاً متفاوت از صحنه های دنیای واقعی به نظر برسند. پان می‌گوید، اما تشخیص زبانی که تصویر مصنوعی را در مقابل تصویر واقعی توصیف می‌کند، بسیار سخت‌تر است.

همچنین، بازنمایی هایی که مدل آنها استفاده می کند برای انسان آسان تر است زیرا به زبان طبیعی نوشته شده اند.

اگر نماینده نتواند به هدف خود برسد، ما راحت تر می توانیم تعیین کنیم که کجا شکست خورده است و چرا شکست خورده است. شاید اطلاعات تاریخچه به اندازه کافی واضح نباشد یا مشاهده برخی جزئیات مهم را نادیده بگیرد.

علاوه بر این، روش آنها را می توان به راحتی برای وظایف و محیط های مختلف به کار برد زیرا تنها از یک نوع ورودی استفاده می کند. تا زمانی که داده ها می توانند به عنوان زبان رمزگذاری شوند، می توانند از همان مدل بدون ایجاد هیچ گونه تغییری استفاده کنند.

اما یک نقطه ضعف این است که روش آنها به طور طبیعی برخی از اطلاعات را که توسط مدل های مبتنی بر بینایی گرفته می شود، مانند اطلاعات عمق، از دست می دهد.

با این حال، محققان از دیدن اینکه ترکیب بازنمایی‌های مبتنی بر زبان با روش‌های مبتنی بر دید، توانایی یک عامل را در جهت‌یابی بهبود می‌بخشد، شگفت‌زده شدند.

او می‌گوید: «شاید این بدان معناست که زبان می‌تواند اطلاعات سطح بالاتری را نسبت به آنچه که با ویژگی‌های بینایی خالص نمی‌توان دریافت کرد، به دست آورد.

این حوزه ای است که محققان می خواهند به کاوش آن ادامه دهند. آنها همچنین می خواهند یک عنوان ناوبری گرا ایجاد کنند که می تواند عملکرد روش را افزایش دهد. علاوه بر این، آن‌ها می‌خواهند توانایی مدل‌های زبانی بزرگ برای نشان دادن آگاهی فضایی را بررسی کنند و ببینند که چگونه می‌تواند به ناوبری مبتنی بر زبان کمک کند.

این تحقیق تا حدی توسط آزمایشگاه هوش مصنوعی MIT-IBM Watson AI تامین می شود.

منبع: https://news.mit.edu/1403/researchers-use-large-language-models-to-help-robots-navigate-0612

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-06-13 16:13:08

امتیاز شما به این مطلب