از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
الگوریتم جدید بینش های با وضوح بالا را برای بینایی کامپیوتر باز می کند
تصور کنید برای چند لحظه به یک خیابان شلوغ نگاه میکنید، سپس سعی میکنید صحنهای را که از حافظه دیدهاید ترسیم کنید. اکثر مردم میتوانند موقعیتهای ناهموار اجسام اصلی مانند ماشینها، افراد و خطوط عابر پیاده را ترسیم کنند، اما تقریباً هیچکس نمیتواند تمام جزئیات را با دقت کامل پیکسلی ترسیم کند. همین امر در مورد اکثر الگوریتمهای بینایی کامپیوتری مدرن نیز صادق است: آنها در ثبت جزئیات سطح بالا از یک صحنه فوقالعاده هستند، اما جزئیات دقیق را از دست میدهند. process اطلاعات
اکنون، محققان MIT سیستمی به نام “FeatUp” ایجاد کردهاند که به الگوریتمها اجازه میدهد تمام جزئیات سطح بالا و پایین یک صحنه را به طور همزمان ثبت کنند – تقریباً مانند جراحی لیزیک چشم برای بینایی کامپیوتری.
وقتی رایانهها یاد میگیرند که از تماشای تصاویر و ویدیوها «دیدن» را بیاموزند، «ایدههایی» از آنچه در یک صحنه وجود دارد را از طریق چیزی به نام «ویژگیها» ایجاد میکنند. برای ایجاد این ویژگی ها، شبکه های عمیق و مدل های پایه بصری تصاویر را به شبکه ای از مربع های کوچک تجزیه می کنند و process این مربع ها به عنوان یک گروه برای تعیین آنچه در حال رفتن است روی در یک عکس هر مربع کوچک معمولاً از 16 تا 32 پیکسل تشکیل شده است، بنابراین وضوح این الگوریتم ها به طور چشمگیری کوچکتر از تصاویری است که با آنها کار می کنند. در تلاش برای خلاصهسازی و درک عکسها، الگوریتمها وضوح پیکسلی زیادی را از دست میدهند.
الگوریتم FeatUp می تواند این از دست دادن اطلاعات را متوقف کند و وضوح هر شبکه عمیق را بدون به خطر انداختن افزایش دهد. روی سرعت یا کیفیت این به محققان اجازه می دهد تا به سرعت و به راحتی وضوح هر الگوریتم جدید یا موجود را بهبود بخشند. به عنوان مثال، تلاش برای تفسیر پیشبینیهای یک الگوریتم تشخیص سرطان ریه با هدف محلیسازی تومور را تصور کنید. استفاده از FeatUp قبل از تفسیر الگوریتم با استفاده از روشی مانند نقشههای فعالسازی کلاس (CAM) میتواند نمای بسیار دقیقتری (16-32x) از جایی که تومور ممکن است مطابق مدل قرار داشته باشد، ارائه دهد.
FeatUp نه تنها به پزشکان کمک میکند تا مدلهای خود را درک کنند، بلکه میتواند مجموعهای از وظایف مختلف مانند تشخیص اشیا، تقسیمبندی معنایی (تخصیص برچسبها به پیکسلها در یک تصویر با برچسبهای شی) و تخمین عمق را بهبود بخشد. این امر با ارائه ویژگیهای دقیقتر و با وضوح بالا، که برای ساخت برنامههای بینایی از رانندگی مستقل تا تصویربرداری پزشکی بسیار مهم هستند، به دست میآید.
جوهر تمام بینایی کامپیوتر در این ویژگی های عمیق و هوشمند نهفته است که از اعماق معماری های یادگیری عمیق بیرون می آیند. مارک همیلتون، دانشجوی دکترای MIT در مهندسی برق و علوم کامپیوتر، میگوید: چالش بزرگ الگوریتمهای مدرن این است که تصاویر بزرگ را به شبکههای بسیار کوچکی از ویژگیهای «هوشمند» کاهش میدهند، به بینشهای هوشمندی دست مییابند اما جزئیات دقیقتر را از دست میدهند. و آزمایشگاه هوش مصنوعی (CSAIL) وابسته، و یکی از نویسندگان روی مقاله ای در مورد پروژه «FeatUp به فعال کردن بهترین های هر دو جهان کمک می کند: نمایش های بسیار هوشمند با وضوح تصویر اصلی. این ویژگی های با وضوح بالا به طور قابل توجهی عملکرد را در طیفی از وظایف بینایی رایانه، از افزایش تشخیص اشیا و بهبود پیش بینی عمق تا ارائه درک عمیق تر از تصمیم گیری شبکه شما، افزایش می دهند. process از طریق تجزیه و تحلیل با وضوح بالا.”
رنسانس قطعنامه
همانطور که این مدلهای بزرگ هوش مصنوعی بیشتر و بیشتر رایج میشوند، نیاز فزایندهای به توضیح آنچه انجام میدهند، به چه چیزی نگاه میکنند و به چه چیزی فکر میکنند وجود دارد.
اما دقیقا چگونه FeatUp می تواند این جزئیات دقیق را کشف کند؟ عجیب است که راز در تکان دادن و تکان دادن تصاویر نهفته است.
به طور خاص، FeatUp تنظیمات جزئی را اعمال می کند (مانند حرکت تصویر چند پیکسل به چپ یا راست) و روش واکنش یک الگوریتم به این حرکات جزئی تصویر را مشاهده می کند. این منجر به صدها نقشه با ویژگی های عمیق می شود که همگی کمی متفاوت هستند، که می توانند در یک مجموعه واضح، با وضوح بالا و مجموعه ای از ویژگی های عمیق ترکیب شوند. ما تصور میکنیم که برخی از ویژگیهای با وضوح بالا وجود دارند، و وقتی آنها را تکان میدهیم و محو میکنیم، با تمام ویژگیهای اصلی و با وضوح پایینتر از تصاویر تکانخورده مطابقت دارند. هدف ما این است که یاد بگیریم چگونه با استفاده از این «بازی» ویژگیهای با وضوح پایین را به ویژگیهای با وضوح بالا اصلاح کنیم که به ما اطلاع میدهد چقدر خوب کار میکنیم.» همیلتون. این روش شبیه به این است که چگونه الگوریتمها میتوانند یک مدل سهبعدی از چندین تصویر دوبعدی ایجاد کنند و اطمینان حاصل کنند که شی سهبعدی پیشبینیشده با تمام عکسهای دو بعدی استفاده شده برای ایجاد آن مطابقت دارد. در مورد FeatUp، آنها یک نقشه ویژگی با وضوح بالا را پیشبینی میکنند که با تمام نقشههای ویژگی با وضوح پایین که از لرزش تصویر اصلی تشکیل شدهاند، سازگار است.
این تیم خاطرنشان می کند که ابزارهای استاندارد موجود در PyTorch برای نیازهای آنها ناکافی است و در تلاش برای یافتن راه حلی سریع و کارآمد، نوع جدیدی از لایه شبکه عمیق را معرفی کردند. لایه سفارشی آنها، یک عملیات مشترک دوطرفه آپنمونه برداری، بیش از 100 برابر کارآمدتر از اجرای ساده در PyTorch بود. این تیم همچنین نشان داد که این لایه جدید می تواند طیف گسترده ای از الگوریتم های مختلف از جمله تقسیم بندی معنایی و پیش بینی عمق را بهبود بخشد. این لایه توانایی شبکه را بهبود بخشید process و جزئیات با وضوح بالا را درک کنید و به هر الگوریتمی که از آن استفاده می کند عملکرد قابل توجهی را افزایش دهد.
«یک برنامه کاربردی دیگر چیزی به نام بازیابی اشیای کوچک است که در آن الگوریتم ما امکان محلی سازی دقیق اشیاء را فراهم می کند. برای مثال، حتی در صحنههای جادهای به هم ریخته، الگوریتمهای غنیشده با FeatUp میتوانند اشیاء کوچکی مانند مخروطهای ترافیک، بازتابندهها، چراغها و چالهها را ببینند که پسرعموهایشان با وضوح پایین از کار میافتند. استفانی فو ’22، MNG ’23، دانشجوی دکترا در دانشگاه کالیفرنیا در برکلی و یکی دیگر از نویسندگان ارشد میگوید که این توانایی آن را برای افزایش ویژگیهای درشت به سیگنالهای دقیق نشان میدهد. روی مقاله FeatUp جدید این به ویژه برای کارهای حساس به زمان، مانند مشخص کردن علائم راهنمایی و رانندگی بسیار مهم است روی یک بزرگراه به هم ریخته در یک ماشین بدون راننده. این نه تنها می تواند دقت چنین وظایفی را با تبدیل حدس های گسترده به محلی سازی های دقیق بهبود بخشد، بلکه ممکن است این سیستم ها را قابل اطمینان تر، قابل تفسیرتر و قابل اعتماد تر کند.
بعدش چی؟
با توجه به آرزوهای آینده، این تیم بر پذیرش گسترده FeatUp در جامعه تحقیقاتی و فراتر از آن، مشابه شیوههای افزایش داده تأکید میکند. فو میگوید: «هدف این است که این روش را به ابزاری اساسی در یادگیری عمیق تبدیل کنیم، مدلهایی را غنیسازی کنیم تا جهان را با جزئیات بیشتر بدون ناکارآمدی محاسباتی پردازش با وضوح بالا سنتی درک کنیم.»
نوآ اسناولی، استاد علوم کامپیوتر دانشگاه کورنل، که در این تحقیق شرکت نداشت، میگوید: «FeatUp یک پیشرفت فوقالعاده در جهت ایجاد نمایشهای بصری واقعاً مفید، با تولید آنها در وضوح تصویر کامل است. «نمایشهای بصری آموختهشده در چند سال اخیر واقعاً خوب شدهاند، اما تقریباً همیشه با وضوح بسیار پایین تولید میشوند – میتوانید یک عکس با وضوح کامل خوب قرار دهید و یک شبکه کوچک به اندازه تمبر پستی از ویژگیها را دریافت کنید. اگر میخواهید از این ویژگیها در برنامههایی که خروجیهایی با وضوح کامل تولید میکنند، استفاده کنید، این یک مشکل است. FeatUp با ترکیب ایدههای کلاسیک در وضوح فوقالعاده با رویکردهای یادگیری مدرن، این مشکل را به روشی خلاقانه حل میکند و به نقشههای ویژگی زیبا و با وضوح بالا منجر میشود.»
ما امیدواریم که این ایده ساده بتواند کاربرد وسیعی داشته باشد. ویلیام تی فریمن، نویسنده ارشد، استاد مهندسی برق و استاد علوم کامپیوتر MIT و عضو CSAIL، میگوید: این نسخههای با وضوح بالا از تجزیه و تحلیل تصویر را ارائه میکند که قبلاً فکر میکردیم تنها میتواند با وضوح پایین باشد.
نویسندگان اصلی فو و همیلتون توسط دانشجویان دکترای MIT، لورا برانت SM ’21 و Axel Feldmann SM ’21، و همچنین Zhoutong Zhang SM ’21, PhD ’22، همه وابستگان فعلی یا سابق MIT CSAIL همراه هستند. تحقیقات آنها تا حدی توسط یک کمک هزینه تحصیلات تکمیلی بنیاد ملی علوم پشتیبانی می شود، توسط بنیاد ملی علوم و دفتر مدیر اطلاعات ملی، توسط آزمایشگاه تحقیقاتی نیروی هوایی ایالات متحده، و توسط شتاب دهنده هوش مصنوعی نیروی هوایی ایالات متحده. این گروه آثار خود را در ماه می در کنفرانس بین المللی ارائه خواهد کرد روی بازنمایی های یادگیری
منبع: https://news.mit.edu/1403/featup-algorithm-unlocks-high-resolution-insights-computer-vision-0318
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم
زمان انتشار: 1403-03-19 16:47:06