از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
چندین مدل هوش مصنوعی به ربات ها کمک می کند تا برنامه های پیچیده را با شفافیت بیشتری اجرا کنند
لیست کارهای روزانه شما احتمالاً بسیار ساده است: ظرف ها را بشویید، مواد غذایی بخرید، و سایر نکات جزئی. بعید است که نوشته باشید «اولین ظرف کثیف را بردارید» یا «آن بشقاب را با یک اسفنج بشویید»، زیرا هر یک از این مراحل مینیاتوری در کار به نظر شهودی است. در حالی که میتوانیم به طور معمول هر مرحله را بدون فکر زیاد تکمیل کنیم، یک ربات به یک طرح پیچیده نیاز دارد که شامل طرحهای کلی تری باشد.
آزمایشگاه هوش مصنوعی غیرممکن MIT، گروهی در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL)، به این ماشینها کمک کرده است با یک چارچوب چندوجهی جدید: مدلهای بنیاد ترکیبی برای برنامهریزی سلسله مراتبی (HiP)، که برنامههای دقیق و عملی را با تخصص سه مدل پایه مختلف مانند GPT-4 OpenAI، مدل پایه ای که ChatGPT و Bing Chat بر اساس آن ساخته شده اند، این مدل های پایه آموزش داده شده اند. روی حجم عظیمی از داده ها برای برنامه هایی مانند تولید تصاویر، ترجمه متن و روباتیک.
بر خلاف RT2 و سایر مدل های چند وجهی که آموزش دیده اند روی داده های جفت بینایی، زبان و عمل، HiP از سه مدل پایه مختلف استفاده می کند که هر کدام آموزش دیده اند روی روش های مختلف داده هر مدل پایه بخش متفاوتی از تصمیم گیری را در بر می گیرد process و وقتی زمان تصمیم گیری فرا می رسد با هم کار می کنند. HiP نیاز به دسترسی به دادههای بینایی، زبان و عملکرد جفتی را که به سختی به دست میآید، حذف میکند. HiP نیز استدلال می کند process شفاف تر
آنچه برای یک انسان به عنوان یک کار روزانه در نظر گرفته میشود، میتواند «هدف افق بلند» یک ربات باشد – هدفی فراگیر که شامل تکمیل مراحل کوچکتر در ابتدا است – که نیاز به دادههای کافی برای برنامهریزی، درک و اجرای اهداف دارد. در حالی که محققان بینایی کامپیوتر سعی کرده اند مدل های پایه یکپارچه برای این مشکل بسازند، جفت کردن داده های زبان، بصری و عمل گران است. در عوض، HiP یک دستور العمل متفاوت و چندوجهی را نشان می دهد: سه گانه ای که هوش زبانی، فیزیکی و محیطی را به طور ارزان در یک ربات گنجانده است.
جیم فن، محقق هوش مصنوعی انویدیا، که در این مقاله نقشی نداشت، میگوید: «مدلهای پایه نباید یکپارچه باشند. این کار وظیفه پیچیده برنامهریزی عامل تجسمیافته را به سه مدل تشکیلدهنده تجزیه میکند: یک استدلال زبان، یک مدل دنیای بصری، و یک برنامهریز عمل. این یک مشکل تصمیم گیری دشوار را قابل حل تر و شفاف تر می کند.”
این تیم معتقد است که سیستم آنها می تواند به این ماشین ها کمک کند تا کارهای خانگی را انجام دهند ، مانند کنار گذاشتن یک کتاب یا قرار دادن یک کاسه در ماشین ظرفشویی. علاوه بر این ، HIP می تواند در ساخت و سازهای ساخت و ساز و ساخت چند مرحله ای مانند انباشت و قرار دادن مواد مختلف در توالی های خاص کمک کند.
ارزیابی HiP
تیم CSAIL دقت HiP را آزمایش کرد روی سه کار دستکاری، بهتر از چارچوب های قابل مقایسه. این سیستم با توسعه طرحهای هوشمندی که با اطلاعات جدید سازگار است، استدلال میکند.
ابتدا، محققان درخواست کردند که بلوکهای رنگی متفاوت را روی هم قرار دهند روی یکدیگر و سپس دیگران را در نزدیکی خود قرار دهید. نکته: برخی از رنگهای مناسب وجود نداشتند، بنابراین ربات مجبور شد بلوکهای سفید را در یک کاسه رنگ قرار دهد تا آنها را رنگ کند. لگن اغلب با این تغییرات به طور دقیق تنظیم می شود ، به خصوص در مقایسه با سیستم های برنامه ریزی وظیفه پیشرفته مانند ترانسفورماتور قبل از میلاد و اکشن ، با تنظیم برنامه های خود برای جمع آوری و قرار دادن هر مربع در صورت لزوم.
تست دیگر: چیدمان اشیایی مانند آب نبات و چکش در جعبه قهوه ای در حالی که موارد دیگر را نادیده می گیرد. برخی از اشیایی که برای جابجایی نیاز داشت کثیف بودند، بنابراین HiP برنامههای خود را طوری تنظیم کرد که آنها را در جعبه تمیز کردن و سپس به رنگ قهوهای قرار دهد. container. در یک تظاهرات سوم ، ربات توانست اشیاء غیر ضروری را برای تکمیل زیرگروه های آشپزخانه مانند باز کردن مایکروویو ، پاکسازی یک کتری از راه و چرخش نادیده بگیرد. روی شعله ور. برخی از مراحل درخواست شده قبلاً تکمیل شده بودند، بنابراین ربات با رد کردن آن جهت ها سازگار شد.
سلسله مراتب سه وجهی
برنامه ریزی سه جانبه HiP process به عنوان یک سلسله مراتب عمل می کند، با توانایی پیش آموزش هر یک از اجزای آن روی مجموعه های مختلف داده، از جمله اطلاعات خارج از رباتیک. در پایین آن ترتیب یک مدل بزرگ زبان (LLM) است که با گرفتن تمام اطلاعات نمادین مورد نیاز و تهیه یک برنامه کار انتزاعی شروع به ایده آل می کند. به کارگیری دانش عقل سلیمی که می یابد روی در اینترنت، مدل هدف خود را به اهداف فرعی تقسیم می کند. برای مثال، «تهیه یک فنجان چای» به «پر کردن قابلمه از آب»، «جوش دادن قابلمه» و اقدامات بعدی مورد نیاز تبدیل میشود.
Anurag Ajay ، دانشجوی دکترا در بخش MIT مهندسی برق و علوم کامپیوتر (EECS) و وابسته به CSAIL می گوید: “تنها کاری که می خواهیم انجام دهیم این است که مدل های از پیش آموزش موجود را بگیریم و آنها را با موفقیت با یکدیگر رابط کنیم.” بهجای فشار بر روی یک مدل برای انجام همه کارها، ما چندین مدل را ترکیب میکنیم که از روشهای مختلف دادههای اینترنتی استفاده میکنند. هنگامی که به صورت پشت سر هم استفاده می شوند، به تصمیم گیری رباتیک کمک می کنند و به طور بالقوه می توانند به انجام وظایف در خانه ها، کارخانه ها و سایت های ساختمانی کمک کنند.
این مدلها همچنین برای درک محیطی که در آن کار میکنند و هر هدف فرعی را به درستی اجرا میکنند، به نوعی «چشم» نیاز دارند. این تیم از یک مدل پخش ویدئویی بزرگ برای تقویت برنامه ریزی اولیه تکمیل شده توسط LLM استفاده کرد که اطلاعات هندسی و فیزیکی درباره جهان را از فیلم جمع آوری می کند. روی اینترنت. به نوبه خود، مدل ویدئویی یک طرح مسیر رصدی ایجاد میکند و طرح کلی LLM را برای ترکیب دانش فیزیکی جدید اصلاح میکند.
این processکه به عنوان پالایش تکراری شناخته میشود، به HiP اجازه میدهد درباره ایدههای خود استدلال کند و در هر مرحله بازخورد دریافت کند تا یک طرح کلی کاربردیتر ایجاد کند. جریان بازخورد شبیه به نوشتن مقاله است ، جایی که یک نویسنده می تواند پیش نویس خود را به یک ویرایشگر ارسال کند ، و با این نسخه های موجود در آن ، ناشر را برای آخرین تغییرات بررسی می کند و نهایی می کند.
در این حالت ، بالای سلسله مراتب یک مدل اکشن محرک یا دنباله ای از تصاویر شخص اول است که استنباط می کند که اقدامات باید انجام شود روی اطراف آن در طول این مرحله، طرح مشاهده از مدل ویدئویی بر روی فضای قابل مشاهده برای ربات ترسیم می شود و به ماشین کمک می کند تا تصمیم بگیرد که چگونه هر کار را در چارچوب هدف افق بلند اجرا کند. اگر یک ربات از HiP برای تهیه چای استفاده کند، به این معنی است که دقیقاً محل قابلمه، سینک و سایر عناصر بصری کلیدی را مشخص کرده و شروع به تکمیل هر هدف فرعی می کند.
با این حال، کار چندوجهی به دلیل فقدان مدل های پایه ویدیویی با کیفیت بالا محدود شده است. پس از در دسترس بودن ، آنها می توانند با مدل های ویدیویی در مقیاس کوچک HIP ارتباط برقرار کنند تا بیشتر پیش بینی توالی بصری و تولید عمل ربات را تقویت کنند. یک نسخه با کیفیت بالاتر نیز نیازهای داده فعلی مدل های ویدیویی را کاهش می دهد.
همانطور که گفته شد، رویکرد تیم CSAIL به طور کلی تنها از مقدار کمی از داده ها استفاده می کرد. علاوه بر این، آموزش HiP ارزان بود و پتانسیل استفاده از مدلهای فونداسیون در دسترس را برای تکمیل کارهای افق طولانی نشان داد. «آنچه آنوراگ نشان داده است اثبات مفهومی است که نشان میدهد چگونه میتوانیم مدلهایی را آموزش ببینیم روی وظایف و روش های داده را جدا کنید و آنها را در مدل هایی برای برنامه ریزی رباتیک ترکیب کنید. در آینده، HiP می تواند با مدل های از پیش آموزش دیده تقویت شود process Pulkit Agrawal، نویسنده ارشد، استادیار MIT در EECS و مدیر آزمایشگاه هوش مصنوعی Improbable می گوید: لمس و صدا برای ایجاد برنامه های بهتر. این گروه همچنین در حال بررسی استفاده از HiP برای حل وظایف افق بلند دنیای واقعی در رباتیک است.
آجی و آگراوال نویسندگان اصلی هستند روی مقاله ای که کار را توصیف می کند استادان MIT و محققین اصلی CSAIL، Tommi Jaakkola، Joshua Tenenbaum و Leslie Pack Kaelbling به آنها ملحق می شوند. آکاش سریواستاوا، مدیر تحقیقات آزمایشگاه هوش مصنوعی MIT-IBM، وابسته به تحقیقات CSAIL. دانشجویان تحصیلات تکمیلی Seungwook Han and Yilun Du ’19; فوق دکترای سابق آبیشک گوپتا، که اکنون استادیار دانشگاه واشنگتن است. و دانشجوی فارغ التحصیل سابق شوانگ لی PhD ’23.
کار این تیم تا حدی توسط بنیاد ملی علوم، آژانس پروژههای تحقیقاتی پیشرفته دفاعی ایالات متحده، دفتر تحقیقات ارتش ایالات متحده، دفتر تحقیقات نیروی دریایی ایالات متحده ابتکارات تحقیقاتی دانشگاه چند رشتهای و آزمایشگاه هوش مصنوعی MIT-IBM Watson پشتیبانی میشود. یافته های آنها در کنفرانس 1402 ارائه شد روی سیستم های پردازش اطلاعات عصبی (NeurIPS).
منبع: https://news.mit.edu/1403/multiple-ai-models-help-robots-execute-complex-plans-more-transparently-0108
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم
زمان انتشار: 1403-01-09 12:29:06