از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
کمک به ربات ها روی اشیایی که اهمیت دارند
تصور کنید که باید یک آشپزخانه درهم و برهم را صاف کنید، با یک پیشخوان پر از بسته های سس شروع کنید. اگر هدف شما پاک کردن شمارنده است، ممکن است بسته ها را به صورت گروهی جارو کنید. با این حال، اگر میخواهید ابتدا بستههای خردل را قبل از دور انداختن انتخاب کنید، بر اساس نوع سس، با تمایز بیشتری دستهبندی میکنید. و اگر در میان خردل ها مشتاق گری پوپون بودید، پیدا کردن این مارک خاص مستلزم جستجوی دقیق تری است.
مهندسان MIT روشی را ابداع کردهاند که رباتها را قادر میسازد تا تصمیمات بصری و مرتبط با وظایف مشابه را اتخاذ کنند.
رویکرد جدید این تیم که Clio نام دارد، یک ربات را قادر میسازد تا با توجه به وظایفی که در دست دارد، بخشهای مهم صحنه را شناسایی کند. با Clio، یک ربات لیستی از وظایفی را که به زبان طبیعی و بر اساس آن شرح داده شده است را انجام می دهد روی آن وظایف، سپس سطح دانه بندی مورد نیاز برای تفسیر محیط اطراف خود و “به خاطر سپردن” تنها بخش هایی از یک صحنه که مرتبط هستند را تعیین می کند.
در آزمایشهای واقعی از یک اتاقک بهم ریخته تا یک ساختمان پنج طبقه روی در محوطه دانشگاه MIT، تیم از Clio برای تقسیم خودکار یک صحنه در سطوح مختلف دانه بندی استفاده کرد روی مجموعه ای از وظایف مشخص شده در اعلان های زبان طبیعی مانند “قفسه جابجایی مجلات” و “دریافت جعبه کمک های اولیه”.
این تیم همچنین Clio را در زمان واقعی اجرا کرد روی یک ربات چهارپا زمانی که ربات یک ساختمان اداری را کاوش می کرد، کلیو تنها بخش هایی از صحنه را شناسایی و نقشه برداری کرد که به وظایف ربات مربوط می شد (مانند بازیابی یک اسباب بازی سگ در حالی که انبوهی از لوازم اداری را نادیده می گرفت)، به ربات اجازه می داد اشیاء مورد علاقه را درک کند.
کلیو به دلیل توانایی اش در شناسایی و به خاطر سپردن تنها عناصری که برای یک کار خاص مهم هستند، از نام موزه تاریخ یونان نامگذاری شده است. محققان تصور میکنند که Clio در بسیاری از موقعیتها و محیطهایی که در آنها یک ربات باید به سرعت محیط اطراف خود را در چارچوب وظیفهاش بررسی کند، مفید باشد.
«جستجو و نجات برنامه انگیزشی برای این کار است، اما Clio همچنین میتواند رباتهای خانگی و روباتهای کار را نیرو دهد. روی لوکا کارلون، دانشیار دپارتمان هوانوردی و فضانوردی MIT (AeroAstro)، محقق اصلی در آزمایشگاه سیستمهای اطلاعات و تصمیمگیری (LIDS) و مدیر آزمایشگاه MIT SPARK میگوید. “این در واقع کمک به ربات برای درک محیط و آنچه باید برای انجام ماموریت خود به خاطر بسپارد است.”
این تیم نتایج خود را در مطالعهای که امروز در مجله منتشر شد، جزئیات میدهد نامه های رباتیک و اتوماسیون. از نویسندگان همکار کارلون میتوان به اعضای آزمایشگاه اسپارک اشاره کرد: دومینیک ماگیو، یون چانگ، ناتان هیوز و لوکاس اشمید. و اعضای آزمایشگاه MIT لینکلن: متیو ترانگ، دن گریفیث، کارلین دوگرتی و اریک کریستوفالو.
باز کردن زمینه ها
پیشرفتهای عظیم در زمینههای بینایی کامپیوتری و پردازش زبان طبیعی، رباتها را قادر به شناسایی اشیاء اطراف خود کرده است. اما تا همین اواخر، رباتها فقط در سناریوهای «مجموعه بسته» میتوانستند این کار را انجام دهند، جایی که برنامهریزی شدهاند تا در یک محیط بهدقت تنظیمشده و کنترلشده، با تعداد محدودی از اشیاء که ربات برای تشخیص آنها از قبل آموزش دیده است، کار کنند.
در سالهای اخیر، محققان رویکرد «بازتر» را اتخاذ کردهاند تا رباتها بتوانند اشیاء را در شرایط واقعیتر تشخیص دهند. در زمینه تشخیص مجموعه باز، محققان از ابزارهای یادگیری عمیق برای ساخت شبکه های عصبی استفاده کرده اند که می توانند process میلیاردها تصویر از اینترنت، همراه با متن مرتبط با هر تصویر (مانند تصویر فیس بوک یک دوست از یک سگ، با عنوان “با توله سگ جدیدم آشنا شوید!”).
از میلیونها جفت تصویر-متن، یک شبکه عصبی از آن بخشهایی در صحنه که مشخصههای عباراتی مانند سگ هستند، یاد میگیرد، سپس آنها را شناسایی میکند. سپس یک ربات می تواند از آن شبکه عصبی برای تشخیص سگ در صحنه ای کاملاً جدید استفاده کند.
اما هنوز یک چالش در مورد چگونگی تجزیه یک صحنه به روشی مفید که برای یک کار خاص مرتبط است، باقی مانده است.
Maggio میگوید: «روشهای معمولی سطح مشخص و دلخواه خود را برای تعیین روش ادغام بخشهایی از صحنه به چیزی که میتوانید به عنوان یک «شی» در نظر بگیرید، انتخاب میکنند. با این حال، دانه بندی چیزی که شما آن را “شی” می نامید در واقع به کاری که ربات باید انجام دهد مربوط می شود. اگر این جزئیات بدون در نظر گرفتن وظایف برطرف شود، ممکن است ربات نقشهای داشته باشد که برای وظایفش مفید نباشد.»
گلوگاه اطلاعات
هدف تیم MIT با Clio این بود که رباتها را قادر میسازد تا محیط اطراف خود را با سطحی از جزئیات تفسیر کنند که میتواند به طور خودکار با وظایف در دست تنظیم شود.
به عنوان مثال، با توجه به وظیفه انتقال دسته ای از کتاب ها به یک قفسه، ربات باید بتواند تشخیص دهد که کل پشته کتاب ها شی مربوط به کار است. به همین ترتیب، اگر قرار بود فقط کتاب سبز را از بقیه پشته جابهجا کند، ربات باید کتاب سبز را به عنوان یک شی هدف واحد تشخیص دهد و بقیه صحنه – از جمله کتابهای دیگر در پشته را نادیده بگیرد.
رویکرد این تیم، بینایی کامپیوتری پیشرفته و مدلهای زبان بزرگ را ترکیب میکند که شبکههای عصبی را در بر میگیرد که بین میلیونها تصویر منبع باز و متن معنایی ارتباط برقرار میکند. آنها همچنین از ابزارهای نقشه برداری استفاده می کنند که به طور خودکار یک تصویر را به بخش های کوچک زیادی تقسیم می کنند، که می توانند به شبکه عصبی وارد شوند تا مشخص شود که آیا بخش های خاصی از نظر معنایی مشابه هستند یا خیر. سپس محققان ایدهای از نظریه اطلاعات کلاسیک به نام «گلوگاه اطلاعات» را به کار میگیرند که از آن برای فشردهسازی تعدادی از بخشهای تصویر بهگونهای استفاده میکنند که بخشهایی را انتخاب کرده و ذخیره میکنند که از نظر معنایی بیشترین ارتباط را با یک کار معین دارند.
«مثلاً، بگویید انبوهی از کتاب ها در صحنه وجود دارد و وظیفه من فقط گرفتن کتاب سبز است. ماجو توضیح میدهد که در آن صورت، همه این اطلاعات مربوط به صحنه را از این تنگنا عبور میدهیم و به مجموعهای از بخشهایی میرسیم که نمایانگر کتاب سبز هستند. «همه بخشهای دیگر که مرتبط نیستند، فقط در یک خوشه گروهبندی میشوند که به سادگی میتوانیم آن را حذف کنیم. و ما با یک شی با دانه بندی مناسب که برای پشتیبانی از وظیفه من مورد نیاز است، باقی مانده ایم.”
محققان Clio را در محیط های مختلف دنیای واقعی نشان دادند.
مگیو میگوید: «آنچه که ما فکر میکردیم یک آزمایش واقعاً بیمعنی است اجرای کلیو در آپارتمانم است، جایی که من از قبل هیچ تمیزکاری انجام ندادم.
این تیم فهرستی از وظایف به زبان طبیعی، مانند «حرکت انبوه لباسها» را تهیه کردند و سپس Clio را روی تصاویر آپارتمان به هم ریخته Maggio اعمال کردند. در این موارد، Clio توانست به سرعت صحنههای آپارتمان را تقسیم کند و از طریق الگوریتم اطلاعات Bottleneck بخشها را تغذیه کند تا بخشهایی را که انبوه لباسها را تشکیل میدهند شناسایی کند.
کلیو را هم اجرا کردند روی ربات چهارپا Boston Dynamic، Spot. آنها لیستی از وظایف را به ربات دادند و همانطور که ربات داخل یک ساختمان اداری را کاوش و نقشه برداری می کرد، Clio در زمان واقعی اجرا می کرد. روی یک روی- رایانه برد روی Spot نصب شده است، تا بخش هایی را در صحنه های نقشه برداری شده که از نظر بصری به وظیفه داده شده مربوط می شود، انتخاب کند. این روش یک نقشه همپوشانی ایجاد کرد که فقط اشیاء هدف را نشان میداد، که سپس ربات از آن برای نزدیک شدن به اشیاء شناساییشده و تکمیل فیزیکی کار استفاده کرد.
Maggio می گوید: «اجرای Clio در زمان واقعی یک دستاورد بزرگ برای تیم بود. بسیاری از کارهای قبلی ممکن است چندین ساعت طول بکشد.
در آینده، این تیم قصد دارد تا Clio را به گونه ای تطبیق دهد که بتواند وظایف سطح بالاتر را انجام دهد و بر اساس پیشرفت های اخیر در بازنمایی صحنه های بصری فوتورئالیستی بنا شود.
Maggio میگوید: «ما هنوز به Clio وظایفی میدهیم که تا حدودی خاص هستند، مانند «یافتن دسته کارتها». برای جستجو و نجات، باید وظایف سطح بالای بیشتری را به آن بسپارید، مانند «یافتن بازماندگان» یا «بازگرداندن قدرت» روی. بنابراین، ما می خواهیم به درک بیشتر در سطح انسانی از چگونگی انجام وظایف پیچیده تر برسیم.
این تحقیق تا حدی توسط بنیاد ملی علوم ایالات متحده، بنیاد ملی علوم سوئیس، آزمایشگاه MIT لینکلن، دفتر تحقیقات نیروی دریایی ایالات متحده، و آزمایشگاه تحقیقاتی ارتش ایالات متحده آمریکا با سیستمهای هوشمند و همکاری مشترک تحقیقاتی پشتیبانی شده است.
منبع: https://news.mit.edu/1403/helping-robots-focus-روی-objects-that-matter-0930
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم
زمان انتشار: 1403-09-30 08:12:11