سرور مجازی NVMe

الگوریتم جدید بینش های با وضوح بالا را برای بینایی کامپیوتر باز می کند

توسط مهران در اسفند 29, 1402

الگوریتم جدید بینش های با وضوح بالا را برای بینایی کامپیوتر باز می کند

زمان لازم برای مطالعه: 6 دقیقه

تصور کنید برای چند لحظه به یک خیابان شلوغ نگاه می‌کنید، سپس سعی می‌کنید صحنه‌ای را که از حافظه دیده‌اید ترسیم کنید. اکثر مردم می‌توانند موقعیت‌های ناهموار اجسام اصلی مانند ماشین‌ها، افراد و خطوط عابر پیاده را ترسیم کنند، اما تقریباً هیچ‌کس نمی‌تواند تمام جزئیات را با دقت کامل پیکسلی ترسیم کند. همین امر در مورد اکثر الگوریتم‌های بینایی کامپیوتری مدرن نیز صادق است: آنها در ثبت جزئیات سطح بالا از یک صحنه فوق‌العاده هستند، اما جزئیات دقیق را از دست می‌دهند. process اطلاعات

اکنون، محققان MIT سیستمی به نام “FeatUp” ایجاد کرده‌اند که به الگوریتم‌ها اجازه می‌دهد تمام جزئیات سطح بالا و پایین یک صحنه را به طور همزمان ثبت کنند – تقریباً مانند جراحی لیزیک چشم برای بینایی کامپیوتری.

وقتی رایانه‌ها یاد می‌گیرند که از تماشای تصاویر و ویدیوها «دیدن» را بیاموزند، «ایده‌هایی» از آنچه در یک صحنه وجود دارد را از طریق چیزی به نام «ویژگی‌ها» ایجاد می‌کنند. برای ایجاد این ویژگی ها، شبکه های عمیق و مدل های پایه بصری تصاویر را به شبکه ای از مربع های کوچک تجزیه می کنند و process این مربع ها به عنوان یک گروه برای تعیین آنچه در حال رفتن است روی در یک عکس هر مربع کوچک معمولاً از 16 تا 32 پیکسل تشکیل شده است، بنابراین وضوح این الگوریتم ها به طور چشمگیری کوچکتر از تصاویری است که با آنها کار می کنند. در تلاش برای خلاصه‌سازی و درک عکس‌ها، الگوریتم‌ها وضوح پیکسلی زیادی را از دست می‌دهند.

الگوریتم FeatUp می تواند این از دست دادن اطلاعات را متوقف کند و وضوح هر شبکه عمیق را بدون به خطر انداختن افزایش دهد. روی سرعت یا کیفیت این به محققان اجازه می دهد تا به سرعت و به راحتی وضوح هر الگوریتم جدید یا موجود را بهبود بخشند. به عنوان مثال، تلاش برای تفسیر پیش‌بینی‌های یک الگوریتم تشخیص سرطان ریه با هدف محلی‌سازی تومور را تصور کنید. استفاده از FeatUp قبل از تفسیر الگوریتم با استفاده از روشی مانند نقشه‌های فعال‌سازی کلاس (CAM) می‌تواند نمای بسیار دقیق‌تری (16-32x) از جایی که تومور ممکن است مطابق مدل قرار داشته باشد، ارائه دهد.

FeatUp نه تنها به پزشکان کمک می‌کند تا مدل‌های خود را درک کنند، بلکه می‌تواند مجموعه‌ای از وظایف مختلف مانند تشخیص اشیا، تقسیم‌بندی معنایی (تخصیص برچسب‌ها به پیکسل‌ها در یک تصویر با برچسب‌های شی) و تخمین عمق را بهبود بخشد. این امر با ارائه ویژگی‌های دقیق‌تر و با وضوح بالا، که برای ساخت برنامه‌های بینایی از رانندگی مستقل تا تصویربرداری پزشکی بسیار مهم هستند، به دست می‌آید.

جوهر تمام بینایی کامپیوتر در این ویژگی های عمیق و هوشمند نهفته است که از اعماق معماری های یادگیری عمیق بیرون می آیند. مارک همیلتون، دانشجوی دکترای MIT در مهندسی برق و علوم کامپیوتر، می‌گوید: چالش بزرگ الگوریتم‌های مدرن این است که تصاویر بزرگ را به شبکه‌های بسیار کوچکی از ویژگی‌های «هوشمند» کاهش می‌دهند، به بینش‌های هوشمندی دست می‌یابند اما جزئیات دقیق‌تر را از دست می‌دهند. و آزمایشگاه هوش مصنوعی (CSAIL) وابسته، و یکی از نویسندگان روی مقاله ای در مورد پروژه «FeatUp به فعال کردن بهترین های هر دو جهان کمک می کند: نمایش های بسیار هوشمند با وضوح تصویر اصلی. این ویژگی های با وضوح بالا به طور قابل توجهی عملکرد را در طیفی از وظایف بینایی رایانه، از افزایش تشخیص اشیا و بهبود پیش بینی عمق تا ارائه درک عمیق تر از تصمیم گیری شبکه شما، افزایش می دهند. process از طریق تجزیه و تحلیل با وضوح بالا.”

پیشنهاد می‌کنیم بخوانید: یک تکنیک محاسباتی جدید می‌تواند مهندسی پروتئین‌های مفید را آسان‌تر کند

رنسانس قطعنامه

همانطور که این مدل‌های بزرگ هوش مصنوعی بیشتر و بیشتر رایج می‌شوند، نیاز فزاینده‌ای به توضیح آنچه انجام می‌دهند، به چه چیزی نگاه می‌کنند و به چه چیزی فکر می‌کنند وجود دارد.

اما دقیقا چگونه FeatUp می تواند این جزئیات دقیق را کشف کند؟ عجیب است که راز در تکان دادن و تکان دادن تصاویر نهفته است.

به طور خاص، FeatUp تنظیمات جزئی را اعمال می کند (مانند حرکت تصویر چند پیکسل به چپ یا راست) و روش واکنش یک الگوریتم به این حرکات جزئی تصویر را مشاهده می کند. این منجر به صدها نقشه با ویژگی های عمیق می شود که همگی کمی متفاوت هستند، که می توانند در یک مجموعه واضح، با وضوح بالا و مجموعه ای از ویژگی های عمیق ترکیب شوند. ما تصور می‌کنیم که برخی از ویژگی‌های با وضوح بالا وجود دارند، و وقتی آنها را تکان می‌دهیم و محو می‌کنیم، با تمام ویژگی‌های اصلی و با وضوح پایین‌تر از تصاویر تکان‌خورده مطابقت دارند. هدف ما این است که یاد بگیریم چگونه با استفاده از این «بازی» ویژگی‌های با وضوح پایین را به ویژگی‌های با وضوح بالا اصلاح کنیم که به ما اطلاع می‌دهد چقدر خوب کار می‌کنیم.» همیلتون. این روش شبیه به این است که چگونه الگوریتم‌ها می‌توانند یک مدل سه‌بعدی از چندین تصویر دوبعدی ایجاد کنند و اطمینان حاصل کنند که شی سه‌بعدی پیش‌بینی‌شده با تمام عکس‌های دو بعدی استفاده شده برای ایجاد آن مطابقت دارد. در مورد FeatUp، آنها یک نقشه ویژگی با وضوح بالا را پیش‌بینی می‌کنند که با تمام نقشه‌های ویژگی با وضوح پایین که از لرزش تصویر اصلی تشکیل شده‌اند، سازگار است.

این تیم خاطرنشان می کند که ابزارهای استاندارد موجود در PyTorch برای نیازهای آنها ناکافی است و در تلاش برای یافتن راه حلی سریع و کارآمد، نوع جدیدی از لایه شبکه عمیق را معرفی کردند. لایه سفارشی آنها، یک عملیات مشترک دوطرفه آپنمونه برداری، بیش از 100 برابر کارآمدتر از اجرای ساده در PyTorch بود. این تیم همچنین نشان داد که این لایه جدید می تواند طیف گسترده ای از الگوریتم های مختلف از جمله تقسیم بندی معنایی و پیش بینی عمق را بهبود بخشد. این لایه توانایی شبکه را بهبود بخشید process و جزئیات با وضوح بالا را درک کنید و به هر الگوریتمی که از آن استفاده می کند عملکرد قابل توجهی را افزایش دهد.

«یک برنامه کاربردی دیگر چیزی به نام بازیابی اشیای کوچک است که در آن الگوریتم ما امکان محلی سازی دقیق اشیاء را فراهم می کند. برای مثال، حتی در صحنه‌های جاده‌ای به هم ریخته، الگوریتم‌های غنی‌شده با FeatUp می‌توانند اشیاء کوچکی مانند مخروط‌های ترافیک، بازتابنده‌ها، چراغ‌ها و چاله‌ها را ببینند که پسرعموهایشان با وضوح پایین از کار می‌افتند. استفانی فو ’22، MNG ’23، دانشجوی دکترا در دانشگاه کالیفرنیا در برکلی و یکی دیگر از نویسندگان ارشد می‌گوید که این توانایی آن را برای افزایش ویژگی‌های درشت به سیگنال‌های دقیق نشان می‌دهد. روی مقاله FeatUp جدید این به ویژه برای کارهای حساس به زمان، مانند مشخص کردن علائم راهنمایی و رانندگی بسیار مهم است روی یک بزرگراه به هم ریخته در یک ماشین بدون راننده. این نه تنها می تواند دقت چنین وظایفی را با تبدیل حدس های گسترده به محلی سازی های دقیق بهبود بخشد، بلکه ممکن است این سیستم ها را قابل اطمینان تر، قابل تفسیرتر و قابل اعتماد تر کند.

پیشنهاد می‌کنیم بخوانید: یاور رباتیک اشتباه می کند؟ فقط آن را در جهت درست گول بزنید

بعدش چی؟

با توجه به آرزوهای آینده، این تیم بر پذیرش گسترده FeatUp در جامعه تحقیقاتی و فراتر از آن، مشابه شیوه‌های افزایش داده تأکید می‌کند. فو می‌گوید: «هدف این است که این روش را به ابزاری اساسی در یادگیری عمیق تبدیل کنیم، مدل‌هایی را غنی‌سازی کنیم تا جهان را با جزئیات بیشتر بدون ناکارآمدی محاسباتی پردازش با وضوح بالا سنتی درک کنیم.»

نوآ اسناولی، استاد علوم کامپیوتر دانشگاه کورنل، که در این تحقیق شرکت نداشت، می‌گوید: «FeatUp یک پیشرفت فوق‌العاده در جهت ایجاد نمایش‌های بصری واقعاً مفید، با تولید آنها در وضوح تصویر کامل است. «نمایش‌های بصری آموخته‌شده در چند سال اخیر واقعاً خوب شده‌اند، اما تقریباً همیشه با وضوح بسیار پایین تولید می‌شوند – می‌توانید یک عکس با وضوح کامل خوب قرار دهید و یک شبکه کوچک به اندازه تمبر پستی از ویژگی‌ها را دریافت کنید. اگر می‌خواهید از این ویژگی‌ها در برنامه‌هایی که خروجی‌هایی با وضوح کامل تولید می‌کنند، استفاده کنید، این یک مشکل است. FeatUp با ترکیب ایده‌های کلاسیک در وضوح فوق‌العاده با رویکردهای یادگیری مدرن، این مشکل را به روشی خلاقانه حل می‌کند و به نقشه‌های ویژگی زیبا و با وضوح بالا منجر می‌شود.»

ما امیدواریم که این ایده ساده بتواند کاربرد وسیعی داشته باشد. ویلیام تی فریمن، نویسنده ارشد، استاد مهندسی برق و استاد علوم کامپیوتر MIT و عضو CSAIL، می‌گوید: این نسخه‌های با وضوح بالا از تجزیه و تحلیل تصویر را ارائه می‌کند که قبلاً فکر می‌کردیم تنها می‌تواند با وضوح پایین باشد.

نویسندگان اصلی فو و همیلتون توسط دانشجویان دکترای MIT، لورا برانت SM ’21 و Axel Feldmann SM ’21، و همچنین Zhoutong Zhang SM ’21, PhD ’22، همه وابستگان فعلی یا سابق MIT CSAIL همراه هستند. تحقیقات آنها تا حدی توسط یک کمک هزینه تحصیلات تکمیلی بنیاد ملی علوم پشتیبانی می شود، توسط بنیاد ملی علوم و دفتر مدیر اطلاعات ملی، توسط آزمایشگاه تحقیقاتی نیروی هوایی ایالات متحده، و توسط شتاب دهنده هوش مصنوعی نیروی هوایی ایالات متحده. این گروه آثار خود را در ماه می در کنفرانس بین المللی ارائه خواهد کرد روی بازنمایی های یادگیری

منبع: https://news.mit.edu/1403/featup-algorithm-unlocks-high-resolution-insights-computer-vision-0318

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-03-19 16:47:06

امتیاز شما به این مطلب