سرور مجازی NVMe

تکنیکی برای ربات های چند منظوره موثرتر

توسط مهران در خرداد 14, 1403

زمان لازم برای مطالعه: 5 دقیقه

فرض کنید می خواهید رباتی را آموزش دهید تا روش استفاده از ابزار را بداند و سپس بتواند به سرعت تعمیرات اطراف خانه شما را با چکش، آچار و پیچ گوشتی یاد بگیرد. برای انجام این کار، به مقدار زیادی داده نیاز دارید که نشان دهنده استفاده از ابزار باشد.

مجموعه داده‌های روباتیک موجود از نظر روشی بسیار متفاوت هستند – به عنوان مثال، برخی شامل تصاویر رنگی هستند در حالی که برخی دیگر از آثار لمسی تشکیل شده‌اند. داده ها همچنین می توانند در حوزه های مختلف مانند شبیه سازی یا نمایش های انسانی جمع آوری شوند. و هر مجموعه داده ممکن است یک وظیفه و محیط منحصر به فرد را به تصویر بکشد.

ترکیب کارآمد داده ها از منابع بسیاری در یک مدل یادگیری ماشینی دشوار است، بنابراین بسیاری از روش ها فقط از یک نوع داده برای آموزش یک ربات استفاده می کنند. اما ربات‌هایی که به این روش آموزش داده می‌شوند، با مقدار نسبتاً کمی داده‌های مختص کار، اغلب قادر به انجام وظایف جدید در محیط‌های ناآشنا نیستند.

در تلاش برای آموزش ربات‌های چند منظوره بهتر، محققان MIT تکنیکی را برای ترکیب منابع متعدد داده در دامنه‌ها، روش‌ها و وظایف با استفاده از نوعی هوش مصنوعی مولد به نام مدل‌های انتشار توسعه دادند.

آنها یک مدل انتشار جداگانه برای یادگیری یک استراتژی یا خط مشی برای تکمیل یک کار با استفاده از یک مجموعه داده خاص آموزش می دهند. سپس آنها سیاست های آموخته شده توسط مدل های انتشار را در یک خط مشی کلی ترکیب می کنند که یک ربات را قادر می سازد تا چندین کار را در تنظیمات مختلف انجام دهد.

در شبیه‌سازی‌ها و آزمایش‌های دنیای واقعی، این رویکرد آموزشی یک ربات را قادر می‌سازد تا چندین کار با استفاده از ابزار را انجام دهد و با کارهای جدیدی که در طول آموزش نمی‌دید، سازگار شود. این روش که به عنوان ترکیب سیاست (PoCo) شناخته می شود، منجر به بهبود 20 درصدی عملکرد کار در مقایسه با تکنیک های پایه شد.

پیشنهاد می‌کنیم بخوانید: گیج کننده تغییرات آب و هوا

پرداختن به ناهمگونی در مجموعه داده های رباتیک مانند مشکل تخم مرغ است. اگر می‌خواهیم از داده‌های زیادی برای آموزش سیاست‌های عمومی روبات‌ها استفاده کنیم، ابتدا به ربات‌های قابل استقرار برای دریافت همه این داده‌ها نیاز داریم. لیروی وانگ، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی مقاله می گوید: من فکر می کنم که استفاده از تمام داده های ناهمگون موجود، مشابه آنچه محققان با ChatGPT انجام داده اند، گام مهمی برای حوزه رباتیک است. روی PoCo.

از نویسندگان همکار وانگ می توان به جیلیانگ ژائو، دانشجوی فارغ التحصیل مهندسی مکانیک اشاره کرد. ییلون دو، دانشجوی کارشناسی ارشد EECS؛ ادوارد ادلسون، استاد جان و دوروتی ویلسون، استاد علوم بینایی در بخش مغز و علوم شناختی و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL). و نویسنده ارشد راس تدراک، استاد تویوتا EECS، هوانوردی و فضانوردی، و مهندسی مکانیک، و عضو CSAIL. این تحقیق در کنفرانس رباتیک: علم و سیستم ارائه خواهد شد.

ترکیب مجموعه داده های متفاوت

خط مشی روباتیک یک مدل یادگیری ماشینی است که ورودی ها را می گیرد و از آنها برای انجام یک عمل استفاده می کند. یکی از راه های تفکر در مورد یک سیاست، به عنوان یک استراتژی است. در مورد یک بازوی رباتیک، این استراتژی ممکن است یک مسیر یا یک سری حالت باشد که بازو را به حرکت در می آورد تا چکش را برمی دارد و از آن برای کوبیدن میخ استفاده می کند.

مجموعه داده های مورد استفاده برای یادگیری سیاست های روباتیک معمولا کوچک و متمرکز هستند روی یک کار و محیط خاص، مانند بسته بندی اقلام در جعبه های یک انبار.

هر انبار رباتیک تنها ترابایت داده تولید می کند، اما فقط متعلق به آن ربات خاصی است که در حال نصب است. روی آن بسته ها وانگ می گوید، اگر بخواهید از همه این داده ها برای آموزش یک ماشین عمومی استفاده کنید، ایده آل نیست.

محققان MIT تکنیکی را توسعه دادند که می‌تواند مجموعه‌ای از مجموعه داده‌های کوچک‌تر، مانند مجموعه‌های جمع‌آوری‌شده از بسیاری از انبارهای رباتیک را بگیرد، سیاست‌های جداگانه‌ای را از هر یک بیاموزد، و سیاست‌ها را به‌گونه‌ای ترکیب کند که ربات را قادر می‌سازد تا به بسیاری از وظایف تعمیم دهد.

پیشنهاد می‌کنیم بخوانید: ابزار AI تصاویر با کیفیت بالا را سریعتر از رویکردهای پیشرفته تولید می کند

آنها هر خط مشی را با استفاده از یک نوع مدل هوش مصنوعی مولد به نام مدل انتشار نشان می دهند. مدل‌های انتشار، که اغلب برای تولید تصویر استفاده می‌شوند، یاد می‌گیرند که نمونه‌های داده جدیدی ایجاد کنند که شبیه نمونه‌هایی در یک مجموعه داده آموزشی با اصلاح مکرر خروجی آن‌ها باشد.

اما به جای آموزش یک مدل انتشار برای تولید تصاویر، محققان به آن آموزش می دهند که یک مسیر برای یک روبات ایجاد کند. آنها این کار را با اضافه کردن نویز به مسیرها در یک مجموعه داده آموزشی انجام می دهند. مدل انتشار به تدریج نویز را حذف می کند و خروجی آن را در یک مسیر اصلاح می کند.

این تکنیک که به سیاست انتشار معروف است، قبلا توسط محققان MIT، دانشگاه کلمبیا و موسسه تحقیقاتی تویوتا معرفی شده بود. PoCo این کار سیاست انتشار را ایجاد می کند.

این تیم هر مدل انتشار را با نوع متفاوتی از مجموعه داده‌ها آموزش می‌دهند، مانند یکی با نمایش‌های ویدیویی انسانی و دیگری که از دور عملیات بازوی روباتیک به دست آمده است.

سپس محققان ترکیبی وزنی از سیاست‌های فردی که توسط همه مدل‌های انتشار آموخته‌اند، انجام می‌دهند، و به طور مکرر خروجی را اصلاح می‌کنند تا سیاست ترکیبی اهداف هر خط‌مشی منفرد را برآورده کند.

بزرگتر از مجموع اجزای آن

یکی از مزایای این رویکرد این است که می‌توانیم سیاست‌ها را ترکیب کنیم تا بهترین‌ها را از هر دو جهان به دست آوریم. به عنوان مثال، یک سیاست آموزش دیده روی داده های دنیای واقعی ممکن است قادر به دستیابی به مهارت بیشتری باشند، در حالی که یک سیاست آموزش دیده است روی وانگ می گوید، شبیه سازی می تواند به تعمیم بیشتری دست یابد.

با ترکیب خط مشی، محققان می توانند مجموعه داده ها را از چندین منبع ترکیب کنند تا بتوانند به ربات یاد دهند که به طور موثر از طیف گسترده ای از ابزارها مانند چکش، پیچ گوشتی یا این اسپاتول استفاده کند.

تصویر: با حسن نیت از محققین

از آنجا که خط مشی ها به طور جداگانه آموزش داده می شوند، می توان سیاست های انتشار را برای دستیابی به نتایج بهتر برای یک کار خاص ترکیب و مطابقت داد. یک کاربر همچنین می تواند با آموزش یک سیاست انتشار اضافی با آن مجموعه داده، به جای شروع کل، داده ها را در یک مدالیت یا دامنه جدید اضافه کند. process از ابتدا

انیمیشن بازوی ربات با استفاده از چکش اسباب بازی به عنوان اشیا به صورت تصادفی در کنار آن قرار می گیرد. — تکنیک ترکیب خط مشی که محققان توسعه داده اند می تواند برای آموزش موثر به ربات استفاده از ابزارها، حتی زمانی که اشیایی در اطراف آن قرار می گیرند تا سعی کند حواس او را از وظیفه اش منحرف کند، به طور موثری مورد استفاده قرار گیرد.

تصویر: با حسن نیت از محققین

محققان PoCo را در شبیه سازی و روی بازوهای رباتیک واقعی که کارهای ابزار مختلفی را انجام می‌دهند، مانند استفاده از چکش برای کوبیدن میخ و چرخاندن یک شی با کاردک. PoCo منجر به بهبود 20 درصدی عملکرد کار در مقایسه با روش های پایه شد.

وانگ می‌گوید: «نکته قابل توجه این بود که وقتی ما کوک را به پایان رساندیم و آن را تجسم کردیم، به وضوح می‌توانیم ببینیم که مسیر تشکیل‌شده بسیار بهتر از هر یک از آنها به صورت جداگانه به نظر می‌رسد.

در آینده، محققان می‌خواهند این تکنیک را برای کارهای افق بلند به کار ببرند، جایی که ربات یک ابزار را برمی‌دارد، از آن استفاده می‌کند و سپس به ابزار دیگری تغییر می‌دهد. آنها همچنین می خواهند مجموعه داده های رباتیک بزرگتری را برای بهبود عملکرد ترکیب کنند.

ما برای موفقیت در رباتیک به هر سه نوع داده نیاز داریم: داده های اینترنتی، داده های شبیه سازی و داده های واقعی ربات. چگونه می توان آنها را به طور موثر ترکیب کرد، سوال میلیون دلاری خواهد بود. PoCo یک قدم محکم است روی راه درست است.

این تحقیق تا حدی توسط آمازون، آژانس علوم و فناوری دفاعی سنگاپور، بنیاد ملی علوم ایالات متحده و موسسه تحقیقاتی تویوتا تامین می شود.

منبع: https://news.mit.edu/1403/technique-for-more-effective-multipurpose-robots-0603

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-06-03 11:01:05

امتیاز شما به این مطلب