از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
بوم شناسان نقاط کور مدل های بینایی کامپیوتری را در بازیابی تصاویر حیات وحش پیدا می کنند
سعی کنید از هر یک از تقریباً 11000 گونه درختی در آمریکای شمالی عکس بگیرید و تنها کسری از میلیون ها عکس در مجموعه داده های تصاویر طبیعت خواهید داشت. این مجموعه عظیم از عکسهای فوری – از پروانهها تا نهنگهای گوژپشت – یک ابزار تحقیقاتی عالی برای بومشناسان است زیرا شواهدی از رفتارهای منحصربهفرد موجودات، شرایط نادر، الگوهای مهاجرت، و واکنشها به آلودگی و سایر اشکال تغییرات آب و هوایی ارائه میدهند.
در حالی که مجموعه داده های تصویر طبیعت جامع هستند، هنوز آنطور که می توانند مفید نیستند. جستجو در این پایگاه داده ها و بازیابی تصاویر مرتبط با فرضیه شما زمان بر است. بهتر است از یک دستیار تحقیقاتی خودکار استفاده کنید – یا شاید سیستمهای هوش مصنوعی به نام مدلهای زبان بینایی چندوجهی (VLM). آنها آموزش دیده اند روی هم متن و هم تصاویر، تشخیص جزئیات دقیقتر، مانند درختان خاص در پسزمینه عکس را برای آنها آسانتر میکند.
اما VLM ها چقدر می توانند به محققان طبیعت در بازیابی تصویر کمک کنند؟ تیمی از آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL)، دانشگاه کالج لندن، iNaturalist و جاهای دیگر تست عملکردی را برای کشف این موضوع طراحی کردند. وظیفه هر VLM: یافتن و سازماندهی مجدد مرتبط ترین نتایج در مجموعه داده “INQUIRE” تیم، متشکل از 5 میلیون عکس حیات وحش و 250 درخواست جستجو از طرف بوم شناسان و سایر کارشناسان تنوع زیستی.
دنبال اون قورباغه خاص می گردم
در این ارزیابی ها، محققان دریافتند که VLM های بزرگتر و پیشرفته تر، که آموزش دیده اند روی دادههای بسیار بیشتر، گاهی اوقات میتواند نتایجی را که محققان میخواهند ببینند، به دست آورند. مدل ها عملکرد قابل قبولی داشتند روی پرسشهای ساده درباره محتوای بصری، مانند شناسایی زبالهها روی یک صخره، اما به طور قابلتوجهی با پرسشهایی که نیاز به دانش تخصصی دارند، مانند شناسایی شرایط یا رفتارهای بیولوژیکی خاص، با مشکل مواجه شدند. به عنوان مثال، VLM ها تا حدودی به راحتی نمونه هایی از چتر دریایی را کشف کردند روی در ساحل، اما با نکات فنی بیشتری مانند «آگزانتیسم در قورباغه سبز» دست و پنجه نرم کردند، وضعیتی که توانایی آنها را برای زرد کردن پوستشان محدود میکند.
یافتههای آنها نشان میدهد که مدلها به دادههای آموزشی بسیار بیشتری برای دامنه خاص نیاز دارند process پرس و جوهای دشوار ادوارد وندرو، دانشجوی دکترای MIT، یکی از زیرمجموعه های CSAIL که کار را رهبری می کرد روی مجموعه داده در یک مقاله جدید، معتقد است که با آشنایی با داده های آموزنده تر، VLM ها روزی می توانند دستیاران تحقیقاتی خوبی باشند. وندرو میگوید: «ما میخواهیم سیستمهای بازیابی بسازیم که نتایج دقیقی را که دانشمندان در هنگام نظارت بر تنوع زیستی و تجزیه و تحلیل تغییرات آب و هوا به دنبال آن هستند، پیدا کند. مدلهای چندوجهی هنوز زبان علمی پیچیدهتری را درک نمیکنند، اما ما معتقدیم که INQUIRE معیار مهمی برای ردیابی چگونگی پیشرفت آنها در درک اصطلاحات علمی خواهد بود و در نهایت به محققان کمک میکند تا بهطور خودکار تصاویر دقیق مورد نیاز خود را پیدا کنند.»
آزمایشهای این تیم نشان داد که مدلهای بزرگتر به دلیل دادههای آموزشی گستردهتر، برای جستجوهای سادهتر و پیچیدهتر مؤثرتر هستند. آنها ابتدا از مجموعه داده INQUIRE استفاده کردند تا آزمایش کنند آیا VLM ها می توانند مجموعه ای از 5 میلیون تصویر را به 100 نتیجه مرتبط (همچنین به عنوان “رتبه بندی” شناخته می شود) محدود کنند. برای جستوجوهای ساده مانند «صخرهای با سازهها و زبالههای دستساز»، مدلهای نسبتاً بزرگی مانند «SigLIP» تصاویر منطبق را پیدا کردند، در حالی که مدلهای CLIP با اندازه کوچکتر مشکل داشتند. به گفته Vendrow، VLM های بزرگتر در رتبه بندی پرس و جوهای سخت تر «در حال شروع به مفید بودن» هستند.
وندرو و همکارانش همچنین ارزیابی کردند که چگونه مدلهای چندوجهی میتوانند آن 100 نتیجه را مجدداً رتبهبندی کنند، و سازماندهی مجدد تصاویری که بیشتر مربوط به جستجو هستند. در این آزمون ها، حتی LLM های بزرگ آموزش دیدند روی دادههای مدیریتشدهتر، مانند GPT-4o، با مشکل مواجه شدند: امتیاز دقت آن تنها 59.6 درصد بود، که بالاترین امتیاز کسبشده توسط هر مدلی بود.
محققان این نتایج را در کنفرانس ارائه کردند روی سیستمهای پردازش اطلاعات عصبی (NeurIPS) در اوایل این ماه.
پرس و جو برای INQUIRE
مجموعه داده INQUIRE شامل پرس و جوهای جستجو است روی بحث و گفتگو با بوم شناسان، زیست شناسان، اقیانوس شناسان و سایر کارشناسان در مورد انواع تصاویری که آنها به دنبال آن هستند، از جمله شرایط و رفتارهای فیزیکی منحصر به فرد حیوانات. سپس تیمی از حاشیه نویسان 180 ساعت را صرف جستجوی مجموعه داده iNaturalist با این اعلانات کردند و تقریباً 200000 نتیجه را با دقت بررسی کردند تا 33000 مورد مطابق با درخواست ها را برچسب گذاری کنند.
به عنوان مثال، حاشیه نویسان از پرس و جوهایی مانند “خرچنگ گوشه نشین از زباله های پلاستیکی به عنوان پوسته خود استفاده می کند” و “یک خرچنگ کالیفرنیایی با برچسب سبز “26” برای شناسایی زیرمجموعه های مجموعه داده تصویر بزرگتر که این رویدادهای خاص و نادر را به تصویر می کشند، استفاده کردند.
سپس، محققان از همان پرس و جوهای جستجو استفاده کردند تا ببینند VLM ها چقدر می توانند تصاویر iNaturalist را بازیابی کنند. برچسبهای حاشیهنویسها نشان میدهد که مدلها برای درک کلمات کلیدی دانشمندان تلاش میکردند، زیرا نتایج آنها شامل تصاویری بود که قبلاً به عنوان نامربوط با جستجو برچسبگذاری شده بودند. به عنوان مثال، نتایج VLM برای “درختان چوب قرمز با زخم های آتش” گاهی اوقات شامل تصاویری از درختان بدون هیچ علامتی می شود.
“این بررسی دقیق داده ها، با تمرکز است روی سارا بیر، استادیار توسعه شغلی هومر A. برنل در MIT، محقق اصلی CSAIL و نویسنده ارشد این کار، میگوید: «بهدست آوردن نمونههای واقعی از تحقیقات علمی در سراسر حوزههای تحقیقاتی در اکولوژی و علوم محیطی». ثابت شده است که برای گسترش درک ما از قابلیتهای فعلی VLMها در این تنظیمات علمی بالقوه تأثیرگذار، حیاتی است. همچنین شکافهایی را در تحقیقات فعلی مشخص کرده است که اکنون میتوانیم برای رفع آنها تلاش کنیم، بهویژه برای پرسشهای ترکیبی پیچیده، اصطلاحات فنی، و تفاوتهای ظریف و ظریفی که مقولههای مورد علاقه همکاران ما را مشخص میکند.»
وندرو میگوید: «یافتههای ما حاکی از آن است که برخی از مدلهای بینایی از قبل به اندازه کافی دقیق هستند تا به دانشمندان حیات وحش در بازیابی برخی تصاویر کمک کنند، اما بسیاری از کارها حتی برای بزرگترین و بهترین مدلها هنوز هم بسیار دشوار است. «اگرچه INQUIRE متمرکز است روی نظارت بر اکولوژی و تنوع زیستی، تنوع گسترده پرس و جوهای آن به این معنی است که VLMهایی که عملکرد خوبی دارند روی INQUIRE احتمالاً در تجزیه و تحلیل مجموعههای تصویری بزرگ در سایر زمینههای مشاهدات فشرده برتر خواهد بود.»
ذهن های پرسشگر می خواهند ببینند
در ادامه پروژه خود، محققان در حال کار با iNaturalist برای توسعه یک سیستم پرس و جو هستند تا به دانشمندان و دیگر ذهنهای کنجکاو کمک کند تا تصاویری را که واقعاً میخواهند ببینند پیدا کنند. نسخه ی نمایشی کاری آنها به کاربران امکان می دهد جستجوها را بر اساس گونه ها فیلتر کنند و امکان کشف سریعتر نتایج مرتبط مانند، مثلاً، رنگ های متنوع چشم گربه ها را فراهم می کند. وندرو و نویسنده ارشد اومیروس پانتازیس، که اخیراً دکترای خود را از دانشگاه کالج لندن دریافت کرده است، همچنین قصد دارند سیستم رتبهبندی مجدد را با تقویت مدلهای فعلی برای ارائه نتایج بهتر، بهبود بخشند.
جاستین کیتز، دانشیار دانشگاه پیتسبورگ، توانایی INQUIRE برای کشف داده های ثانویه را برجسته می کند. کیتز که در این تحقیق شرکت نداشت، میگوید: «مجموعههای دادههای تنوع زیستی به سرعت برای هر دانشمندی بزرگ میشوند که نمیتوان آن را بررسی کرد. این مقاله توجه را به یک مشکل دشوار و حل نشده جلب میکند، و آن این است که چگونه میتوان به طور مؤثر در میان چنین دادههایی با پرسشهایی جستوجو کرد که فراتر از «چه کسی اینجاست» است و در عوض درباره ویژگیهای فردی، رفتار و تعاملات گونهها پرسیده میشود. توانایی کشف دقیق و کارآمد این پدیدههای پیچیدهتر در دادههای تصویری تنوع زیستی برای علم بنیادی و تأثیرات دنیای واقعی در محیطزیست و حفاظت حیاتی است.»
وندرو، پانتازیس و بیری این مقاله را با مهندس نرم افزار iNaturalist الکساندر شپرد، استادان دانشگاه کالج لندن، گابریل بروستو و کیت جونز، استادیار دانشگاه ادینبورگ و نویسنده ارشد اویسین مک آئودا، و استادیار دانشگاه ماساچوست در آمهرست، گرانت وان نوشتند. هورن، که به عنوان نویسنده ارشد خدمت می کرد. کار آنها تا حدی توسط آزمایشگاه هوش مصنوعی مولد در دانشگاه ادینبورگ، بنیاد ملی علوم ایالات متحده / شورای تحقیقات علوم طبیعی و مهندسی مرکز جهانی کانادا پشتیبانی شد. روی هوش مصنوعی و تغییر تنوع زیستی، کمک هزینه تحقیقاتی انجمن سلطنتی، و پروژه سلامت زیستی که توسط صندوق جهانی حیات وحش بریتانیا تامین می شود.
منبع: https://news.mit.edu/1403/ecologists-find-computer-vision-models-blind-spots-retrieving-wildlife-images-1220
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم
زمان انتشار: 1403-12-22 01:56:07