از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
تکنیکی برای ربات های چند منظوره موثرتر
فرض کنید می خواهید رباتی را آموزش دهید تا روش استفاده از ابزار را بداند و سپس بتواند به سرعت تعمیرات اطراف خانه شما را با چکش، آچار و پیچ گوشتی یاد بگیرد. برای انجام این کار، به مقدار زیادی داده نیاز دارید که نشان دهنده استفاده از ابزار باشد.
مجموعه دادههای روباتیک موجود از نظر روشی بسیار متفاوت هستند – به عنوان مثال، برخی شامل تصاویر رنگی هستند در حالی که برخی دیگر از آثار لمسی تشکیل شدهاند. داده ها همچنین می توانند در حوزه های مختلف مانند شبیه سازی یا نمایش های انسانی جمع آوری شوند. و هر مجموعه داده ممکن است یک وظیفه و محیط منحصر به فرد را به تصویر بکشد.
ترکیب کارآمد داده ها از منابع بسیاری در یک مدل یادگیری ماشینی دشوار است، بنابراین بسیاری از روش ها فقط از یک نوع داده برای آموزش یک ربات استفاده می کنند. اما رباتهایی که به این روش آموزش داده میشوند، با مقدار نسبتاً کمی دادههای مختص کار، اغلب قادر به انجام وظایف جدید در محیطهای ناآشنا نیستند.
در تلاش برای آموزش رباتهای چند منظوره بهتر، محققان MIT تکنیکی را برای ترکیب منابع متعدد داده در دامنهها، روشها و وظایف با استفاده از نوعی هوش مصنوعی مولد به نام مدلهای انتشار توسعه دادند.
آنها یک مدل انتشار جداگانه برای یادگیری یک استراتژی یا خط مشی برای تکمیل یک کار با استفاده از یک مجموعه داده خاص آموزش می دهند. سپس آنها سیاست های آموخته شده توسط مدل های انتشار را در یک خط مشی کلی ترکیب می کنند که یک ربات را قادر می سازد تا چندین کار را در تنظیمات مختلف انجام دهد.
در شبیهسازیها و آزمایشهای دنیای واقعی، این رویکرد آموزشی یک ربات را قادر میسازد تا چندین کار با استفاده از ابزار را انجام دهد و با کارهای جدیدی که در طول آموزش نمیدید، سازگار شود. این روش که به عنوان ترکیب سیاست (PoCo) شناخته می شود، منجر به بهبود 20 درصدی عملکرد کار در مقایسه با تکنیک های پایه شد.
پرداختن به ناهمگونی در مجموعه داده های رباتیک مانند مشکل تخم مرغ است. اگر میخواهیم از دادههای زیادی برای آموزش سیاستهای عمومی روباتها استفاده کنیم، ابتدا به رباتهای قابل استقرار برای دریافت همه این دادهها نیاز داریم. لیروی وانگ، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی مقاله می گوید: من فکر می کنم که استفاده از تمام داده های ناهمگون موجود، مشابه آنچه محققان با ChatGPT انجام داده اند، گام مهمی برای حوزه رباتیک است. روی PoCo.
از نویسندگان همکار وانگ می توان به جیلیانگ ژائو، دانشجوی فارغ التحصیل مهندسی مکانیک اشاره کرد. ییلون دو، دانشجوی کارشناسی ارشد EECS؛ ادوارد ادلسون، استاد جان و دوروتی ویلسون، استاد علوم بینایی در بخش مغز و علوم شناختی و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL). و نویسنده ارشد راس تدراک، استاد تویوتا EECS، هوانوردی و فضانوردی، و مهندسی مکانیک، و عضو CSAIL. این تحقیق در کنفرانس رباتیک: علم و سیستم ارائه خواهد شد.
ترکیب مجموعه داده های متفاوت
خط مشی روباتیک یک مدل یادگیری ماشینی است که ورودی ها را می گیرد و از آنها برای انجام یک عمل استفاده می کند. یکی از راه های تفکر در مورد یک سیاست، به عنوان یک استراتژی است. در مورد یک بازوی رباتیک، این استراتژی ممکن است یک مسیر یا یک سری حالت باشد که بازو را به حرکت در می آورد تا چکش را برمی دارد و از آن برای کوبیدن میخ استفاده می کند.
مجموعه داده های مورد استفاده برای یادگیری سیاست های روباتیک معمولا کوچک و متمرکز هستند روی یک کار و محیط خاص، مانند بسته بندی اقلام در جعبه های یک انبار.
هر انبار رباتیک تنها ترابایت داده تولید می کند، اما فقط متعلق به آن ربات خاصی است که در حال نصب است. روی آن بسته ها وانگ می گوید، اگر بخواهید از همه این داده ها برای آموزش یک ماشین عمومی استفاده کنید، ایده آل نیست.
محققان MIT تکنیکی را توسعه دادند که میتواند مجموعهای از مجموعه دادههای کوچکتر، مانند مجموعههای جمعآوریشده از بسیاری از انبارهای رباتیک را بگیرد، سیاستهای جداگانهای را از هر یک بیاموزد، و سیاستها را بهگونهای ترکیب کند که ربات را قادر میسازد تا به بسیاری از وظایف تعمیم دهد.
آنها هر خط مشی را با استفاده از یک نوع مدل هوش مصنوعی مولد به نام مدل انتشار نشان می دهند. مدلهای انتشار، که اغلب برای تولید تصویر استفاده میشوند، یاد میگیرند که نمونههای داده جدیدی ایجاد کنند که شبیه نمونههایی در یک مجموعه داده آموزشی با اصلاح مکرر خروجی آنها باشد.
اما به جای آموزش یک مدل انتشار برای تولید تصاویر، محققان به آن آموزش می دهند که یک مسیر برای یک روبات ایجاد کند. آنها این کار را با اضافه کردن نویز به مسیرها در یک مجموعه داده آموزشی انجام می دهند. مدل انتشار به تدریج نویز را حذف می کند و خروجی آن را در یک مسیر اصلاح می کند.
این تکنیک که به سیاست انتشار معروف است، قبلا توسط محققان MIT، دانشگاه کلمبیا و موسسه تحقیقاتی تویوتا معرفی شده بود. PoCo این کار سیاست انتشار را ایجاد می کند.
این تیم هر مدل انتشار را با نوع متفاوتی از مجموعه دادهها آموزش میدهند، مانند یکی با نمایشهای ویدیویی انسانی و دیگری که از دور عملیات بازوی روباتیک به دست آمده است.
سپس محققان ترکیبی وزنی از سیاستهای فردی که توسط همه مدلهای انتشار آموختهاند، انجام میدهند، و به طور مکرر خروجی را اصلاح میکنند تا سیاست ترکیبی اهداف هر خطمشی منفرد را برآورده کند.
بزرگتر از مجموع اجزای آن
یکی از مزایای این رویکرد این است که میتوانیم سیاستها را ترکیب کنیم تا بهترینها را از هر دو جهان به دست آوریم. به عنوان مثال، یک سیاست آموزش دیده روی داده های دنیای واقعی ممکن است قادر به دستیابی به مهارت بیشتری باشند، در حالی که یک سیاست آموزش دیده است روی وانگ می گوید، شبیه سازی می تواند به تعمیم بیشتری دست یابد.
از آنجا که خط مشی ها به طور جداگانه آموزش داده می شوند، می توان سیاست های انتشار را برای دستیابی به نتایج بهتر برای یک کار خاص ترکیب و مطابقت داد. یک کاربر همچنین می تواند با آموزش یک سیاست انتشار اضافی با آن مجموعه داده، به جای شروع کل، داده ها را در یک مدالیت یا دامنه جدید اضافه کند. process از ابتدا
محققان PoCo را در شبیه سازی و روی بازوهای رباتیک واقعی که کارهای ابزار مختلفی را انجام میدهند، مانند استفاده از چکش برای کوبیدن میخ و چرخاندن یک شی با کاردک. PoCo منجر به بهبود 20 درصدی عملکرد کار در مقایسه با روش های پایه شد.
وانگ میگوید: «نکته قابل توجه این بود که وقتی ما کوک را به پایان رساندیم و آن را تجسم کردیم، به وضوح میتوانیم ببینیم که مسیر تشکیلشده بسیار بهتر از هر یک از آنها به صورت جداگانه به نظر میرسد.
در آینده، محققان میخواهند این تکنیک را برای کارهای افق بلند به کار ببرند، جایی که ربات یک ابزار را برمیدارد، از آن استفاده میکند و سپس به ابزار دیگری تغییر میدهد. آنها همچنین می خواهند مجموعه داده های رباتیک بزرگتری را برای بهبود عملکرد ترکیب کنند.
ما برای موفقیت در رباتیک به هر سه نوع داده نیاز داریم: داده های اینترنتی، داده های شبیه سازی و داده های واقعی ربات. چگونه می توان آنها را به طور موثر ترکیب کرد، سوال میلیون دلاری خواهد بود. PoCo یک قدم محکم است روی راه درست است.
این تحقیق تا حدی توسط آمازون، آژانس علوم و فناوری دفاعی سنگاپور، بنیاد ملی علوم ایالات متحده و موسسه تحقیقاتی تویوتا تامین می شود.
منبع: https://news.mit.edu/1403/technique-for-more-effective-multipurpose-robots-0603
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم
زمان انتشار: 1403-06-03 11:01:05