سرور مجازی NVMe

چندین مدل هوش مصنوعی به ربات ها کمک می کند تا برنامه های پیچیده را با شفافیت بیشتری اجرا کنند

توسط مهران در دی 19, 1402

چندین مدل هوش مصنوعی به ربات ها کمک می کند تا برنامه های پیچیده را با شفافیت بیشتری اجرا کنند

زمان لازم برای مطالعه: 6 دقیقه

لیست کارهای روزانه شما احتمالاً بسیار ساده است: ظرف ها را بشویید، مواد غذایی بخرید، و سایر نکات جزئی. بعید است که نوشته باشید «اولین ظرف کثیف را بردارید» یا «آن بشقاب را با یک اسفنج بشویید»، زیرا هر یک از این مراحل مینیاتوری در کار به نظر شهودی است. در حالی که می‌توانیم به طور معمول هر مرحله را بدون فکر زیاد تکمیل کنیم، یک ربات به یک طرح پیچیده نیاز دارد که شامل طرح‌های کلی تری باشد.

آزمایشگاه هوش مصنوعی غیرممکن MIT، گروهی در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL)، به این ماشین‌ها کمک کرده است با یک چارچوب چندوجهی جدید: مدل‌های بنیاد ترکیبی برای برنامه‌ریزی سلسله مراتبی (HiP)، که برنامه‌های دقیق و عملی را با تخصص سه مدل پایه مختلف مانند GPT-4 OpenAI، مدل پایه ای که ChatGPT و Bing Chat بر اساس آن ساخته شده اند، این مدل های پایه آموزش داده شده اند. روی حجم عظیمی از داده ها برای برنامه هایی مانند تولید تصاویر، ترجمه متن و روباتیک.

بر خلاف RT2 و سایر مدل های چند وجهی که آموزش دیده اند روی داده های جفت بینایی، زبان و عمل، HiP از سه مدل پایه مختلف استفاده می کند که هر کدام آموزش دیده اند روی روش های مختلف داده هر مدل پایه بخش متفاوتی از تصمیم گیری را در بر می گیرد process و وقتی زمان تصمیم گیری فرا می رسد با هم کار می کنند. HiP نیاز به دسترسی به داده‌های بینایی، زبان و عملکرد جفتی را که به سختی به دست می‌آید، حذف می‌کند. HiP نیز استدلال می کند process شفاف تر

آنچه برای یک انسان به عنوان یک کار روزانه در نظر گرفته می‌شود، می‌تواند «هدف افق بلند» یک ربات باشد – هدفی فراگیر که شامل تکمیل مراحل کوچک‌تر در ابتدا است – که نیاز به داده‌های کافی برای برنامه‌ریزی، درک و اجرای اهداف دارد. در حالی که محققان بینایی کامپیوتر سعی کرده اند مدل های پایه یکپارچه برای این مشکل بسازند، جفت کردن داده های زبان، بصری و عمل گران است. در عوض، HiP یک دستور العمل متفاوت و چندوجهی را نشان می دهد: سه گانه ای که هوش زبانی، فیزیکی و محیطی را به طور ارزان در یک ربات گنجانده است.

جیم فن، محقق هوش مصنوعی انویدیا، که در این مقاله نقشی نداشت، می‌گوید: «مدل‌های پایه نباید یکپارچه باشند. این کار وظیفه پیچیده برنامه‌ریزی عامل تجسم‌یافته را به سه مدل تشکیل‌دهنده تجزیه می‌کند: یک استدلال زبان، یک مدل دنیای بصری، و یک برنامه‌ریز عمل. این یک مشکل تصمیم گیری دشوار را قابل حل تر و شفاف تر می کند.”

این تیم معتقد است که سیستم آنها می تواند به این ماشین ها کمک کند تا کارهای خانگی را انجام دهند ، مانند کنار گذاشتن یک کتاب یا قرار دادن یک کاسه در ماشین ظرفشویی. علاوه بر این ، HIP می تواند در ساخت و سازهای ساخت و ساز و ساخت چند مرحله ای مانند انباشت و قرار دادن مواد مختلف در توالی های خاص کمک کند.

ارزیابی HiP

تیم CSAIL دقت HiP را آزمایش کرد روی سه کار دستکاری، بهتر از چارچوب های قابل مقایسه. این سیستم با توسعه طرح‌های هوشمندی که با اطلاعات جدید سازگار است، استدلال می‌کند.

ابتدا، محققان درخواست کردند که بلوک‌های رنگی متفاوت را روی هم قرار دهند روی یکدیگر و سپس دیگران را در نزدیکی خود قرار دهید. نکته: برخی از رنگ‌های مناسب وجود نداشتند، بنابراین ربات مجبور شد بلوک‌های سفید را در یک کاسه رنگ قرار دهد تا آنها را رنگ کند. لگن اغلب با این تغییرات به طور دقیق تنظیم می شود ، به خصوص در مقایسه با سیستم های برنامه ریزی وظیفه پیشرفته مانند ترانسفورماتور قبل از میلاد و اکشن ، با تنظیم برنامه های خود برای جمع آوری و قرار دادن هر مربع در صورت لزوم.

پیشنهاد می‌کنیم بخوانید: مهارت های استدلال مدل های زبان بزرگ اغلب بیش از حد برآورد می شود

تست دیگر: چیدمان اشیایی مانند آب نبات و چکش در جعبه قهوه ای در حالی که موارد دیگر را نادیده می گیرد. برخی از اشیایی که برای جابجایی نیاز داشت کثیف بودند، بنابراین HiP برنامه‌های خود را طوری تنظیم کرد که آنها را در جعبه تمیز کردن و سپس به رنگ قهوه‌ای قرار دهد. container. در یک تظاهرات سوم ، ربات توانست اشیاء غیر ضروری را برای تکمیل زیرگروه های آشپزخانه مانند باز کردن مایکروویو ، پاکسازی یک کتری از راه و چرخش نادیده بگیرد. روی شعله ور. برخی از مراحل درخواست شده قبلاً تکمیل شده بودند، بنابراین ربات با رد کردن آن جهت ها سازگار شد.

سلسله مراتب سه وجهی

برنامه ریزی سه جانبه HiP process به عنوان یک سلسله مراتب عمل می کند، با توانایی پیش آموزش هر یک از اجزای آن روی مجموعه های مختلف داده، از جمله اطلاعات خارج از رباتیک. در پایین آن ترتیب یک مدل بزرگ زبان (LLM) است که با گرفتن تمام اطلاعات نمادین مورد نیاز و تهیه یک برنامه کار انتزاعی شروع به ایده آل می کند. به کارگیری دانش عقل سلیمی که می یابد روی در اینترنت، مدل هدف خود را به اهداف فرعی تقسیم می کند. برای مثال، «تهیه یک فنجان چای» به «پر کردن قابلمه از آب»، «جوش دادن قابلمه» و اقدامات بعدی مورد نیاز تبدیل می‌شود.

Anurag Ajay ، دانشجوی دکترا در بخش MIT مهندسی برق و علوم کامپیوتر (EECS) و وابسته به CSAIL می گوید: “تنها کاری که می خواهیم انجام دهیم این است که مدل های از پیش آموزش موجود را بگیریم و آنها را با موفقیت با یکدیگر رابط کنیم.” به‌جای فشار بر روی یک مدل برای انجام همه کارها، ما چندین مدل را ترکیب می‌کنیم که از روش‌های مختلف داده‌های اینترنتی استفاده می‌کنند. هنگامی که به صورت پشت سر هم استفاده می شوند، به تصمیم گیری رباتیک کمک می کنند و به طور بالقوه می توانند به انجام وظایف در خانه ها، کارخانه ها و سایت های ساختمانی کمک کنند.

این مدل‌ها همچنین برای درک محیطی که در آن کار می‌کنند و هر هدف فرعی را به درستی اجرا می‌کنند، به نوعی «چشم» نیاز دارند. این تیم از یک مدل پخش ویدئویی بزرگ برای تقویت برنامه ریزی اولیه تکمیل شده توسط LLM استفاده کرد که اطلاعات هندسی و فیزیکی درباره جهان را از فیلم جمع آوری می کند. روی اینترنت. به نوبه خود، مدل ویدئویی یک طرح مسیر رصدی ایجاد می‌کند و طرح کلی LLM را برای ترکیب دانش فیزیکی جدید اصلاح می‌کند.

این processکه به عنوان پالایش تکراری شناخته می‌شود، به HiP اجازه می‌دهد درباره ایده‌های خود استدلال کند و در هر مرحله بازخورد دریافت کند تا یک طرح کلی کاربردی‌تر ایجاد کند. جریان بازخورد شبیه به نوشتن مقاله است ، جایی که یک نویسنده می تواند پیش نویس خود را به یک ویرایشگر ارسال کند ، و با این نسخه های موجود در آن ، ناشر را برای آخرین تغییرات بررسی می کند و نهایی می کند.

پیشنهاد می‌کنیم بخوانید: همکاری جامعه برای پیشرفت

در این حالت ، بالای سلسله مراتب یک مدل اکشن محرک یا دنباله ای از تصاویر شخص اول است که استنباط می کند که اقدامات باید انجام شود روی اطراف آن در طول این مرحله، طرح مشاهده از مدل ویدئویی بر روی فضای قابل مشاهده برای ربات ترسیم می شود و به ماشین کمک می کند تا تصمیم بگیرد که چگونه هر کار را در چارچوب هدف افق بلند اجرا کند. اگر یک ربات از HiP برای تهیه چای استفاده کند، به این معنی است که دقیقاً محل قابلمه، سینک و سایر عناصر بصری کلیدی را مشخص کرده و شروع به تکمیل هر هدف فرعی می کند.

با این حال، کار چندوجهی به دلیل فقدان مدل های پایه ویدیویی با کیفیت بالا محدود شده است. پس از در دسترس بودن ، آنها می توانند با مدل های ویدیویی در مقیاس کوچک HIP ارتباط برقرار کنند تا بیشتر پیش بینی توالی بصری و تولید عمل ربات را تقویت کنند. یک نسخه با کیفیت بالاتر نیز نیازهای داده فعلی مدل های ویدیویی را کاهش می دهد.

همانطور که گفته شد، رویکرد تیم CSAIL به طور کلی تنها از مقدار کمی از داده ها استفاده می کرد. علاوه بر این، آموزش HiP ارزان بود و پتانسیل استفاده از مدل‌های فونداسیون در دسترس را برای تکمیل کارهای افق طولانی نشان داد. «آنچه آنوراگ نشان داده است اثبات مفهومی است که نشان می‌دهد چگونه می‌توانیم مدل‌هایی را آموزش ببینیم روی وظایف و روش های داده را جدا کنید و آنها را در مدل هایی برای برنامه ریزی رباتیک ترکیب کنید. در آینده، HiP می تواند با مدل های از پیش آموزش دیده تقویت شود process Pulkit Agrawal، نویسنده ارشد، استادیار MIT در EECS و مدیر آزمایشگاه هوش مصنوعی Improbable می گوید: لمس و صدا برای ایجاد برنامه های بهتر. این گروه همچنین در حال بررسی استفاده از HiP برای حل وظایف افق بلند دنیای واقعی در رباتیک است.

آجی و آگراوال نویسندگان اصلی هستند روی مقاله ای که کار را توصیف می کند استادان MIT و محققین اصلی CSAIL، Tommi Jaakkola، Joshua Tenenbaum و Leslie Pack Kaelbling به آنها ملحق می شوند. آکاش سریواستاوا، مدیر تحقیقات آزمایشگاه هوش مصنوعی MIT-IBM، وابسته به تحقیقات CSAIL. دانشجویان تحصیلات تکمیلی Seungwook Han and Yilun Du ’19; فوق دکترای سابق آبیشک گوپتا، که اکنون استادیار دانشگاه واشنگتن است. و دانشجوی فارغ التحصیل سابق شوانگ لی PhD ’23.

کار این تیم تا حدی توسط بنیاد ملی علوم، آژانس پروژه‌های تحقیقاتی پیشرفته دفاعی ایالات متحده، دفتر تحقیقات ارتش ایالات متحده، دفتر تحقیقات نیروی دریایی ایالات متحده ابتکارات تحقیقاتی دانشگاه چند رشته‌ای و آزمایشگاه هوش مصنوعی MIT-IBM Watson پشتیبانی می‌شود. یافته های آنها در کنفرانس 1402 ارائه شد روی سیستم های پردازش اطلاعات عصبی (NeurIPS).

منبع: https://news.mit.edu/1403/multiple-ai-models-help-robots-execute-complex-plans-more-transparently-0108

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-01-09 12:29:06

امتیاز شما به این مطلب