سرور مجازی NVMe

بوم شناسان نقاط کور مدل های بینایی کامپیوتری را در بازیابی تصاویر حیات وحش پیدا می کنند

توسط مهران در دی 2, 1403

بوم شناسان نقاط کور مدل های بینایی کامپیوتری را در بازیابی تصاویر حیات وحش پیدا می کنند

زمان لازم برای مطالعه: 5 دقیقه

سعی کنید از هر یک از تقریباً 11000 گونه درختی در آمریکای شمالی عکس بگیرید و تنها کسری از میلیون ها عکس در مجموعه داده های تصاویر طبیعت خواهید داشت. این مجموعه عظیم از عکس‌های فوری – از پروانه‌ها تا نهنگ‌های گوژپشت – یک ابزار تحقیقاتی عالی برای بوم‌شناسان است زیرا شواهدی از رفتارهای منحصربه‌فرد موجودات، شرایط نادر، الگوهای مهاجرت، و واکنش‌ها به آلودگی و سایر اشکال تغییرات آب و هوایی ارائه می‌دهند.

در حالی که مجموعه داده های تصویر طبیعت جامع هستند، هنوز آنطور که می توانند مفید نیستند. جستجو در این پایگاه داده ها و بازیابی تصاویر مرتبط با فرضیه شما زمان بر است. بهتر است از یک دستیار تحقیقاتی خودکار استفاده کنید – یا شاید سیستم‌های هوش مصنوعی به نام مدل‌های زبان بینایی چندوجهی (VLM). آنها آموزش دیده اند روی هم متن و هم تصاویر، تشخیص جزئیات دقیق‌تر، مانند درختان خاص در پس‌زمینه عکس را برای آنها آسان‌تر می‌کند.

اما VLM ها چقدر می توانند به محققان طبیعت در بازیابی تصویر کمک کنند؟ تیمی از آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL)، دانشگاه کالج لندن، iNaturalist و جاهای دیگر تست عملکردی را برای کشف این موضوع طراحی کردند. وظیفه هر VLM: یافتن و سازماندهی مجدد مرتبط ترین نتایج در مجموعه داده “INQUIRE” تیم، متشکل از 5 میلیون عکس حیات وحش و 250 درخواست جستجو از طرف بوم شناسان و سایر کارشناسان تنوع زیستی.

دنبال اون قورباغه خاص می گردم

در این ارزیابی ها، محققان دریافتند که VLM های بزرگتر و پیشرفته تر، که آموزش دیده اند روی داده‌های بسیار بیشتر، گاهی اوقات می‌تواند نتایجی را که محققان می‌خواهند ببینند، به دست آورند. مدل ها عملکرد قابل قبولی داشتند روی پرسش‌های ساده درباره محتوای بصری، مانند شناسایی زباله‌ها روی یک صخره، اما به طور قابل‌توجهی با پرسش‌هایی که نیاز به دانش تخصصی دارند، مانند شناسایی شرایط یا رفتارهای بیولوژیکی خاص، با مشکل مواجه شدند. به عنوان مثال، VLM ها تا حدودی به راحتی نمونه هایی از چتر دریایی را کشف کردند روی در ساحل، اما با نکات فنی بیشتری مانند «آگزانتیسم در قورباغه سبز» دست و پنجه نرم کردند، وضعیتی که توانایی آن‌ها را برای زرد کردن پوستشان محدود می‌کند.

یافته‌های آن‌ها نشان می‌دهد که مدل‌ها به داده‌های آموزشی بسیار بیشتری برای دامنه خاص نیاز دارند process پرس و جوهای دشوار ادوارد وندرو، دانشجوی دکترای MIT، یکی از زیرمجموعه های CSAIL که کار را رهبری می کرد روی مجموعه داده در یک مقاله جدید، معتقد است که با آشنایی با داده های آموزنده تر، VLM ها روزی می توانند دستیاران تحقیقاتی خوبی باشند. وندرو می‌گوید: «ما می‌خواهیم سیستم‌های بازیابی بسازیم که نتایج دقیقی را که دانشمندان در هنگام نظارت بر تنوع زیستی و تجزیه و تحلیل تغییرات آب و هوا به دنبال آن هستند، پیدا کند. مدل‌های چندوجهی هنوز زبان علمی پیچیده‌تری را درک نمی‌کنند، اما ما معتقدیم که INQUIRE معیار مهمی برای ردیابی چگونگی پیشرفت آنها در درک اصطلاحات علمی خواهد بود و در نهایت به محققان کمک می‌کند تا به‌طور خودکار تصاویر دقیق مورد نیاز خود را پیدا کنند.»

پیشنهاد می‌کنیم بخوانید: روش جدید آلودگی میکروبی در کشت سلولی را تشخیص می دهد

آزمایش‌های این تیم نشان داد که مدل‌های بزرگ‌تر به دلیل داده‌های آموزشی گسترده‌تر، برای جستجوهای ساده‌تر و پیچیده‌تر مؤثرتر هستند. آنها ابتدا از مجموعه داده INQUIRE استفاده کردند تا آزمایش کنند آیا VLM ها می توانند مجموعه ای از 5 میلیون تصویر را به 100 نتیجه مرتبط (همچنین به عنوان “رتبه بندی” شناخته می شود) محدود کنند. برای جست‌وجوهای ساده مانند «صخره‌ای با سازه‌ها و زباله‌های دست‌ساز»، مدل‌های نسبتاً بزرگی مانند «SigLIP» تصاویر منطبق را پیدا کردند، در حالی که مدل‌های CLIP با اندازه کوچک‌تر مشکل داشتند. به گفته Vendrow، VLM های بزرگتر در رتبه بندی پرس و جوهای سخت تر «در حال شروع به مفید بودن» هستند.

وندرو و همکارانش همچنین ارزیابی کردند که چگونه مدل‌های چندوجهی می‌توانند آن 100 نتیجه را مجدداً رتبه‌بندی کنند، و سازماندهی مجدد تصاویری که بیشتر مربوط به جستجو هستند. در این آزمون ها، حتی LLM های بزرگ آموزش دیدند روی داده‌های مدیریت‌شده‌تر، مانند GPT-4o، با مشکل مواجه شدند: امتیاز دقت آن تنها 59.6 درصد بود، که بالاترین امتیاز کسب‌شده توسط هر مدلی بود.

محققان این نتایج را در کنفرانس ارائه کردند روی سیستم‌های پردازش اطلاعات عصبی (NeurIPS) در اوایل این ماه.

پرس و جو برای INQUIRE

مجموعه داده INQUIRE شامل پرس و جوهای جستجو است روی بحث و گفتگو با بوم شناسان، زیست شناسان، اقیانوس شناسان و سایر کارشناسان در مورد انواع تصاویری که آنها به دنبال آن هستند، از جمله شرایط و رفتارهای فیزیکی منحصر به فرد حیوانات. سپس تیمی از حاشیه نویسان 180 ساعت را صرف جستجوی مجموعه داده iNaturalist با این اعلانات کردند و تقریباً 200000 نتیجه را با دقت بررسی کردند تا 33000 مورد مطابق با درخواست ها را برچسب گذاری کنند.

به عنوان مثال، حاشیه نویسان از پرس و جوهایی مانند “خرچنگ گوشه نشین از زباله های پلاستیکی به عنوان پوسته خود استفاده می کند” و “یک خرچنگ کالیفرنیایی با برچسب سبز “26” برای شناسایی زیرمجموعه های مجموعه داده تصویر بزرگتر که این رویدادهای خاص و نادر را به تصویر می کشند، استفاده کردند.

سپس، محققان از همان پرس و جوهای جستجو استفاده کردند تا ببینند VLM ها چقدر می توانند تصاویر iNaturalist را بازیابی کنند. برچسب‌های حاشیه‌نویس‌ها نشان می‌دهد که مدل‌ها برای درک کلمات کلیدی دانشمندان تلاش می‌کردند، زیرا نتایج آنها شامل تصاویری بود که قبلاً به عنوان نامربوط با جستجو برچسب‌گذاری شده بودند. به عنوان مثال، نتایج VLM برای “درختان چوب قرمز با زخم های آتش” گاهی اوقات شامل تصاویری از درختان بدون هیچ علامتی می شود.

“این بررسی دقیق داده ها، با تمرکز است روی سارا بیر، استادیار توسعه شغلی هومر A. برنل در MIT، محقق اصلی CSAIL و نویسنده ارشد این کار، می‌گوید: «به‌دست آوردن نمونه‌های واقعی از تحقیقات علمی در سراسر حوزه‌های تحقیقاتی در اکولوژی و علوم محیطی». ثابت شده است که برای گسترش درک ما از قابلیت‌های فعلی VLMها در این تنظیمات علمی بالقوه تأثیرگذار، حیاتی است. همچنین شکاف‌هایی را در تحقیقات فعلی مشخص کرده است که اکنون می‌توانیم برای رفع آن‌ها تلاش کنیم، به‌ویژه برای پرسش‌های ترکیبی پیچیده، اصطلاحات فنی، و تفاوت‌های ظریف و ظریفی که مقوله‌های مورد علاقه همکاران ما را مشخص می‌کند.»

پیشنهاد می‌کنیم بخوانید: مدل AI کد موجود در پروتئین ها را رمزگشایی می کند که به آنها می گوید کجا بروند

وندرو می‌گوید: «یافته‌های ما حاکی از آن است که برخی از مدل‌های بینایی از قبل به اندازه کافی دقیق هستند تا به دانشمندان حیات وحش در بازیابی برخی تصاویر کمک کنند، اما بسیاری از کارها حتی برای بزرگترین و بهترین مدل‌ها هنوز هم بسیار دشوار است. «اگرچه INQUIRE متمرکز است روی نظارت بر اکولوژی و تنوع زیستی، تنوع گسترده پرس و جوهای آن به این معنی است که VLMهایی که عملکرد خوبی دارند روی INQUIRE احتمالاً در تجزیه و تحلیل مجموعه‌های تصویری بزرگ در سایر زمینه‌های مشاهدات فشرده برتر خواهد بود.»

ذهن های پرسشگر می خواهند ببینند

در ادامه پروژه خود، محققان در حال کار با iNaturalist برای توسعه یک سیستم پرس و جو هستند تا به دانشمندان و دیگر ذهن‌های کنجکاو کمک کند تا تصاویری را که واقعاً می‌خواهند ببینند پیدا کنند. نسخه ی نمایشی کاری آنها به کاربران امکان می دهد جستجوها را بر اساس گونه ها فیلتر کنند و امکان کشف سریعتر نتایج مرتبط مانند، مثلاً، رنگ های متنوع چشم گربه ها را فراهم می کند. وندرو و نویسنده ارشد اومیروس پانتازیس، که اخیراً دکترای خود را از دانشگاه کالج لندن دریافت کرده است، همچنین قصد دارند سیستم رتبه‌بندی مجدد را با تقویت مدل‌های فعلی برای ارائه نتایج بهتر، بهبود بخشند.

جاستین کیتز، دانشیار دانشگاه پیتسبورگ، توانایی INQUIRE برای کشف داده های ثانویه را برجسته می کند. کیتز که در این تحقیق شرکت نداشت، می‌گوید: «مجموعه‌های داده‌های تنوع زیستی به سرعت برای هر دانشمندی بزرگ می‌شوند که نمی‌توان آن را بررسی کرد. این مقاله توجه را به یک مشکل دشوار و حل نشده جلب می‌کند، و آن این است که چگونه می‌توان به طور مؤثر در میان چنین داده‌هایی با پرسش‌هایی جست‌وجو کرد که فراتر از «چه کسی اینجاست» است و در عوض درباره ویژگی‌های فردی، رفتار و تعاملات گونه‌ها پرسیده می‌شود. توانایی کشف دقیق و کارآمد این پدیده‌های پیچیده‌تر در داده‌های تصویری تنوع زیستی برای علم بنیادی و تأثیرات دنیای واقعی در محیط‌زیست و حفاظت حیاتی است.»

وندرو، پانتازیس و بیری این مقاله را با مهندس نرم افزار iNaturalist الکساندر شپرد، استادان دانشگاه کالج لندن، گابریل بروستو و کیت جونز، استادیار دانشگاه ادینبورگ و نویسنده ارشد اویسین مک آئودا، و استادیار دانشگاه ماساچوست در آمهرست، گرانت وان نوشتند. هورن، که به عنوان نویسنده ارشد خدمت می کرد. کار آنها تا حدی توسط آزمایشگاه هوش مصنوعی مولد در دانشگاه ادینبورگ، بنیاد ملی علوم ایالات متحده / شورای تحقیقات علوم طبیعی و مهندسی مرکز جهانی کانادا پشتیبانی شد. روی هوش مصنوعی و تغییر تنوع زیستی، کمک هزینه تحقیقاتی انجمن سلطنتی، و پروژه سلامت زیستی که توسط صندوق جهانی حیات وحش بریتانیا تامین می شود.

منبع: https://news.mit.edu/1403/ecologists-find-computer-vision-models-blind-spots-retrieving-wildlife-images-1220

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-12-22 01:56:07

امتیاز شما به این مطلب