سرور مجازی NVMe

کمک به ربات ها روی اشیایی که اهمیت دارند

توسط مهران در مهر 9, 1403

زمان لازم برای مطالعه: 5 دقیقه

تصور کنید که باید یک آشپزخانه درهم و برهم را صاف کنید، با یک پیشخوان پر از بسته های سس شروع کنید. اگر هدف شما پاک کردن شمارنده است، ممکن است بسته ها را به صورت گروهی جارو کنید. با این حال، اگر می‌خواهید ابتدا بسته‌های خردل را قبل از دور انداختن انتخاب کنید، بر اساس نوع سس، با تمایز بیشتری دسته‌بندی می‌کنید. و اگر در میان خردل ها مشتاق گری پوپون بودید، پیدا کردن این مارک خاص مستلزم جستجوی دقیق تری است.

مهندسان MIT روشی را ابداع کرده‌اند که ربات‌ها را قادر می‌سازد تا تصمیمات بصری و مرتبط با وظایف مشابه را اتخاذ کنند.

رویکرد جدید این تیم که Clio نام دارد، یک ربات را قادر می‌سازد تا با توجه به وظایفی که در دست دارد، بخش‌های مهم صحنه را شناسایی کند. با Clio، یک ربات لیستی از وظایفی را که به زبان طبیعی و بر اساس آن شرح داده شده است را انجام می دهد روی آن وظایف، سپس سطح دانه بندی مورد نیاز برای تفسیر محیط اطراف خود و “به خاطر سپردن” تنها بخش هایی از یک صحنه که مرتبط هستند را تعیین می کند.

در آزمایش‌های واقعی از یک اتاقک بهم ریخته تا یک ساختمان پنج طبقه روی در محوطه دانشگاه MIT، تیم از Clio برای تقسیم خودکار یک صحنه در سطوح مختلف دانه بندی استفاده کرد روی مجموعه ای از وظایف مشخص شده در اعلان های زبان طبیعی مانند “قفسه جابجایی مجلات” و “دریافت جعبه کمک های اولیه”.

این تیم همچنین Clio را در زمان واقعی اجرا کرد روی یک ربات چهارپا زمانی که ربات یک ساختمان اداری را کاوش می کرد، کلیو تنها بخش هایی از صحنه را شناسایی و نقشه برداری کرد که به وظایف ربات مربوط می شد (مانند بازیابی یک اسباب بازی سگ در حالی که انبوهی از لوازم اداری را نادیده می گرفت)، به ربات اجازه می داد اشیاء مورد علاقه را درک کند.

کلیو به دلیل توانایی اش در شناسایی و به خاطر سپردن تنها عناصری که برای یک کار خاص مهم هستند، از نام موزه تاریخ یونان نامگذاری شده است. محققان تصور می‌کنند که Clio در بسیاری از موقعیت‌ها و محیط‌هایی که در آن‌ها یک ربات باید به سرعت محیط اطراف خود را در چارچوب وظیفه‌اش بررسی کند، مفید باشد.

«جستجو و نجات برنامه انگیزشی برای این کار است، اما Clio همچنین می‌تواند ربات‌های خانگی و روبات‌های کار را نیرو دهد. روی لوکا کارلون، دانشیار دپارتمان هوانوردی و فضانوردی MIT (AeroAstro)، محقق اصلی در آزمایشگاه سیستم‌های اطلاعات و تصمیم‌گیری (LIDS) و مدیر آزمایشگاه MIT SPARK می‌گوید. “این در واقع کمک به ربات برای درک محیط و آنچه باید برای انجام ماموریت خود به خاطر بسپارد است.”

این تیم نتایج خود را در مطالعه‌ای که امروز در مجله منتشر شد، جزئیات می‌دهد نامه های رباتیک و اتوماسیون. از نویسندگان همکار کارلون می‌توان به اعضای آزمایشگاه اسپارک اشاره کرد: دومینیک ماگیو، یون چانگ، ناتان هیوز و لوکاس اشمید. و اعضای آزمایشگاه MIT لینکلن: متیو ترانگ، دن گریفیث، کارلین دوگرتی و اریک کریستوفالو.

باز کردن زمینه ها

پیشرفت‌های عظیم در زمینه‌های بینایی کامپیوتری و پردازش زبان طبیعی، ربات‌ها را قادر به شناسایی اشیاء اطراف خود کرده است. اما تا همین اواخر، ربات‌ها فقط در سناریوهای «مجموعه بسته» می‌توانستند این کار را انجام دهند، جایی که برنامه‌ریزی شده‌اند تا در یک محیط به‌دقت تنظیم‌شده و کنترل‌شده، با تعداد محدودی از اشیاء که ربات برای تشخیص آن‌ها از قبل آموزش دیده است، کار کنند.

پیشنهاد می‌کنیم بخوانید: آیا فناوری به اشتغال کمک می کند یا به آن آسیب می رساند؟

در سال‌های اخیر، محققان رویکرد «بازتر» را اتخاذ کرده‌اند تا ربات‌ها بتوانند اشیاء را در شرایط واقعی‌تر تشخیص دهند. در زمینه تشخیص مجموعه باز، محققان از ابزارهای یادگیری عمیق برای ساخت شبکه های عصبی استفاده کرده اند که می توانند process میلیاردها تصویر از اینترنت، همراه با متن مرتبط با هر تصویر (مانند تصویر فیس بوک یک دوست از یک سگ، با عنوان “با توله سگ جدیدم آشنا شوید!”).

از میلیون‌ها جفت تصویر-متن، یک شبکه عصبی از آن بخش‌هایی در صحنه که مشخصه‌های عباراتی مانند سگ هستند، یاد می‌گیرد، سپس آن‌ها را شناسایی می‌کند. سپس یک ربات می تواند از آن شبکه عصبی برای تشخیص سگ در صحنه ای کاملاً جدید استفاده کند.

اما هنوز یک چالش در مورد چگونگی تجزیه یک صحنه به روشی مفید که برای یک کار خاص مرتبط است، باقی مانده است.

Maggio می‌گوید: «روش‌های معمولی سطح مشخص و دلخواه خود را برای تعیین روش ادغام بخش‌هایی از صحنه به چیزی که می‌توانید به عنوان یک «شی» در نظر بگیرید، انتخاب می‌کنند. با این حال، دانه بندی چیزی که شما آن را “شی” می نامید در واقع به کاری که ربات باید انجام دهد مربوط می شود. اگر این جزئیات بدون در نظر گرفتن وظایف برطرف شود، ممکن است ربات نقشه‌ای داشته باشد که برای وظایفش مفید نباشد.»

گلوگاه اطلاعات

هدف تیم MIT با Clio این بود که ربات‌ها را قادر می‌سازد تا محیط اطراف خود را با سطحی از جزئیات تفسیر کنند که می‌تواند به طور خودکار با وظایف در دست تنظیم شود.

به عنوان مثال، با توجه به وظیفه انتقال دسته ای از کتاب ها به یک قفسه، ربات باید بتواند تشخیص دهد که کل پشته کتاب ها شی مربوط به کار است. به همین ترتیب، اگر قرار بود فقط کتاب سبز را از بقیه پشته جابه‌جا کند، ربات باید کتاب سبز را به عنوان یک شی هدف واحد تشخیص دهد و بقیه صحنه – از جمله کتاب‌های دیگر در پشته را نادیده بگیرد.

رویکرد این تیم، بینایی کامپیوتری پیشرفته و مدل‌های زبان بزرگ را ترکیب می‌کند که شبکه‌های عصبی را در بر می‌گیرد که بین میلیون‌ها تصویر منبع باز و متن معنایی ارتباط برقرار می‌کند. آنها همچنین از ابزارهای نقشه برداری استفاده می کنند که به طور خودکار یک تصویر را به بخش های کوچک زیادی تقسیم می کنند، که می توانند به شبکه عصبی وارد شوند تا مشخص شود که آیا بخش های خاصی از نظر معنایی مشابه هستند یا خیر. سپس محققان ایده‌ای از نظریه اطلاعات کلاسیک به نام «گلوگاه اطلاعات» را به کار می‌گیرند که از آن برای فشرده‌سازی تعدادی از بخش‌های تصویر به‌گونه‌ای استفاده می‌کنند که بخش‌هایی را انتخاب کرده و ذخیره می‌کنند که از نظر معنایی بیشترین ارتباط را با یک کار معین دارند.

«مثلاً، بگویید انبوهی از کتاب ها در صحنه وجود دارد و وظیفه من فقط گرفتن کتاب سبز است. ماجو توضیح می‌دهد که در آن صورت، همه این اطلاعات مربوط به صحنه را از این تنگنا عبور می‌دهیم و به مجموعه‌ای از بخش‌هایی می‌رسیم که نمایانگر کتاب سبز هستند. «همه بخش‌های دیگر که مرتبط نیستند، فقط در یک خوشه گروه‌بندی می‌شوند که به سادگی می‌توانیم آن را حذف کنیم. و ما با یک شی با دانه بندی مناسب که برای پشتیبانی از وظیفه من مورد نیاز است، باقی مانده ایم.”

پیشنهاد می‌کنیم بخوانید: ایجاد زبان های برنامه نویسی سفارشی برای سیستم های هوش مصنوعی بصری کارآمد

محققان Clio را در محیط های مختلف دنیای واقعی نشان دادند.

مگیو می‌گوید: «آنچه که ما فکر می‌کردیم یک آزمایش واقعاً بی‌معنی است اجرای کلیو در آپارتمانم است، جایی که من از قبل هیچ تمیزکاری انجام ندادم.

این تیم فهرستی از وظایف به زبان طبیعی، مانند «حرکت انبوه لباس‌ها» را تهیه کردند و سپس Clio را روی تصاویر آپارتمان به هم ریخته Maggio اعمال کردند. در این موارد، Clio توانست به سرعت صحنه‌های آپارتمان را تقسیم کند و از طریق الگوریتم اطلاعات Bottleneck بخش‌ها را تغذیه کند تا بخش‌هایی را که انبوه لباس‌ها را تشکیل می‌دهند شناسایی کند.

کلیو را هم اجرا کردند روی ربات چهارپا Boston Dynamic، Spot. آنها لیستی از وظایف را به ربات دادند و همانطور که ربات داخل یک ساختمان اداری را کاوش و نقشه برداری می کرد، Clio در زمان واقعی اجرا می کرد. روی یک روی- رایانه برد روی Spot نصب شده است، تا بخش هایی را در صحنه های نقشه برداری شده که از نظر بصری به وظیفه داده شده مربوط می شود، انتخاب کند. این روش یک نقشه همپوشانی ایجاد کرد که فقط اشیاء هدف را نشان می‌داد، که سپس ربات از آن برای نزدیک شدن به اشیاء شناسایی‌شده و تکمیل فیزیکی کار استفاده کرد.

Maggio می گوید: «اجرای Clio در زمان واقعی یک دستاورد بزرگ برای تیم بود. بسیاری از کارهای قبلی ممکن است چندین ساعت طول بکشد.

در آینده، این تیم قصد دارد تا Clio را به گونه ای تطبیق دهد که بتواند وظایف سطح بالاتر را انجام دهد و بر اساس پیشرفت های اخیر در بازنمایی صحنه های بصری فوتورئالیستی بنا شود.

Maggio می‌گوید: «ما هنوز به Clio وظایفی می‌دهیم که تا حدودی خاص هستند، مانند «یافتن دسته کارت‌ها». برای جستجو و نجات، باید وظایف سطح بالای بیشتری را به آن بسپارید، مانند «یافتن بازماندگان» یا «بازگرداندن قدرت» روی. بنابراین، ما می خواهیم به درک بیشتر در سطح انسانی از چگونگی انجام وظایف پیچیده تر برسیم.

این تحقیق تا حدی توسط بنیاد ملی علوم ایالات متحده، بنیاد ملی علوم سوئیس، آزمایشگاه MIT لینکلن، دفتر تحقیقات نیروی دریایی ایالات متحده، و آزمایشگاه تحقیقاتی ارتش ایالات متحده آمریکا با سیستم‌های هوشمند و همکاری مشترک تحقیقاتی پشتیبانی شده است.

منبع: https://news.mit.edu/1403/helping-robots-focus-روی-objects-that-matter-0930

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-09-30 08:12:11

امتیاز شما به این مطلب