سرور مجازی NVMe

مطالعه نشان می دهد که مدل های بینایی زبان نمی توانند با کلمات نفی نمایش داده شود

توسط مهران در اردیبهشت 24, 1404

مطالعه نشان می دهد که مدل های بینایی زبان نمی توانند با کلمات نفی نمایش داده شود

زمان لازم برای مطالعه: 5 دقیقه

یک رادیولوژیست را تصور کنید که اشعه ایکس قفسه سینه را از یک بیمار جدید بررسی می کند. او متوجه می شود که بیمار تورم در بافت دارد اما قلب بزرگ ندارد. به دنبال سرعت بخشیدن به تشخیص ، او ممکن است از یک مدل یادگیری ماشین بینایی برای جستجوی گزارش های بیماران مشابه استفاده کند.

اما اگر این مدل به اشتباه گزارش ها را با هر دو شرط مشخص کند ، محتمل ترین تشخیص می تواند کاملاً متفاوت باشد: اگر بیمار دارای تورم بافت و قلب بزرگ شده باشد ، این بیماری به احتمال زیاد مربوط به قلبی است ، اما بدون قلب بزرگ می تواند چندین دلیل اساسی باشد.

در یک مطالعه جدید ، محققان MIT دریافتند که مدل های بینایی زبان به احتمال زیاد در موقعیت های دنیای واقعی چنین اشتباهی را انجام می دهند زیرا آنها نفی را درک نمی کنند-کلماتی مانند “نه” و “نه” که مشخص می کند چه چیزی نادرست یا غایب است.

کومیل الامود ، دانشجوی فارغ التحصیل MIT و نویسنده اصلی این مطالعه می گوید: “این کلمات نفی می توانند تأثیر بسیار قابل توجهی داشته باشند ، و اگر ما فقط از این مدل ها کورکورانه استفاده می کنیم ، ممکن است عواقب فاجعه بار داشته باشیم.”

محققان توانایی مدل های بینایی زبان را برای شناسایی نفی در زیرنویس های تصویر آزمایش کردند. این مدل ها اغلب و همچنین یک حدس تصادفی انجام می شوند. ساختمان روی در این یافته ها ، این تیم مجموعه ای از تصاویر با زیرنویس های مربوطه ایجاد کرده است که شامل کلمات نفی است که اشیاء گمشده را توصیف می کنند.

آنها نشان می دهند که بازآفرینی یک مدل بینایی زبان با این مجموعه داده منجر به بهبود عملکرد می شود وقتی از یک مدل خواسته می شود تصاویر را که حاوی اشیاء خاصی نیستند ، بازیابی کنند. همچنین دقت را افزایش می دهد روی سؤال چند گزینه ای که با زیرنویس های نفی پاسخ می دهند.

اما محققان هشدار می دهند که کار بیشتری برای پرداختن به این موارد لازم است root علل این مشکل آنها امیدوارند که تحقیقات آنها کاربران بالقوه را نسبت به کاستی که قبلاً بی توجه است ، هشدار دهد که می تواند پیامدهای جدی در تنظیمات پر از اندازه که در حال حاضر در آن مورد استفاده قرار می گیرد ، داشته باشد ، از تعیین اینکه بیماران از درمان های خاصی برای شناسایی نقایص محصول در گیاهان تولیدی استفاده می کنند.

“این یک مقاله فنی است ، اما موضوعات بزرگی وجود دارد که باید مورد توجه قرار گیرد. اگر چیزی به اندازه نفی شکسته شود ، ما نباید در بسیاری از راه هایی که اکنون از آنها استفاده می کنیم استفاده کنیم – بدون ارزیابی فشرده ،” می گوید: “Marzyeh Ghassemi نویسنده ارشد ، در بخش مهندسی برق و علوم کامپیوتر (EE) و سیستم های مهندسی و یک عضویت از موسسه پزشکی و متخصصان پزشکی SCIENGE SCINESTION (EECANTION)

پیشنهاد می‌کنیم بخوانید: کنسرسیوم دریایی MIT بادبان را تنظیم می کند

غاسمی و الامود پیوستند روی مقاله توسط Shaden Alshammari ، دانشجوی فارغ التحصیل MIT ؛ یونگلونگ تیان Openai ؛ Guohao Li ، یک پست دکتری سابق در دانشگاه آکسفورد ؛ Philip HS Torr ، استاد آکسفورد ؛ و یون کیم ، استادیار EECS و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) در MIT. این تحقیق در کنفرانس ارائه می شود روی چشم انداز رایانه و تشخیص الگوی.

غفلت از نفی

مدل های بینایی-زبان (VLM) با استفاده از مجموعه های عظیمی از تصاویر و زیرنویس های مربوطه ، که آنها یاد می گیرند به عنوان مجموعه ای از اعداد ، به نام بازنمایی بردار رمزگذاری شوند ، آموزش داده می شوند. مدل ها از این بردارها برای تمایز بین تصاویر مختلف استفاده می کنند.

یک VLM از دو رمزگذار جداگانه ، یکی برای متن و دیگری برای تصاویر استفاده می کند ، و رمزگذارها یاد می گیرند که بردارهای مشابه را برای یک تصویر و عنوان متن مربوطه به آن منتقل کنند.

غاسمی می گوید: “زیرنویس ها آنچه را که در تصاویر وجود دارد بیان می کند.

از آنجا که مجموعه داده های تصویر حاوی نمونه هایی از نفی نیست ، VLM ها هرگز یاد نمی گیرند که آن را شناسایی کنند.

برای حفر عمیق تر این مشکل ، محققان دو کار معیار را طراحی کردند که توانایی VLM ها را برای درک نفی آزمایش می کند.

برای اولین بار ، آنها با درخواست از LLM برای فکر کردن در مورد اشیاء مرتبط که در یک تصویر نیستند و آنها را در زیرنویس می نویسند ، از یک مدل زبان بزرگ (LLM) برای تنظیم مجدد تصاویر در یک مجموعه داده موجود استفاده کردند. سپس آنها مدل ها را با ترغیب آنها با کلمات نفی برای بازیابی تصاویری که حاوی اشیاء خاصی هستند ، آزمایش کردند ، اما دیگران نیستند.

برای کار دوم ، آنها سوالات چند گزینه ای را طراحی کردند که از VLM می خواهند مناسب ترین عنوان را از لیستی از گزینه های نزدیک مرتبط انتخاب کند. این زیرنویس ها فقط با اضافه کردن مرجع به یک شیء که در تصویر ظاهر نمی شود یا نفی شیء که در تصویر ظاهر می شود متفاوت است.

این مدل ها اغلب در هر دو کار شکست خورده اند ، با عملکرد بازیابی تصویر نزدیک به 25 درصد با زیرنویس های نفی کاهش می یابد. هنگامی که نوبت به سؤالات چند گزینه ای رسید ، بهترین مدل ها فقط در حدود 39 درصد دقت به دست آوردند که چندین مدل در شانس تصادفی یا حتی پایین تر از آن قرار داشتند.

یکی از دلایل این عدم موفقیت ، میانبر است که محققان آن را تعصب تأیید می نامند – VLM ها کلمات نفی و تمرکز را نادیده می گیرند روی در عوض اشیاء در تصاویر.

پیشنهاد می‌کنیم بخوانید: تقویت همکاری LLM برای راه حل های هوشمندتر و کارآمدتر

“این فقط برای کلماتی مانند” نه “و” نه “اتفاق نمی افتد. صرف نظر از روش بیان نفی یا محرومیت ، مدل ها به سادگی آن را نادیده می گیرند. “

این در هر VLM که آزمایش کرده بودند سازگار بود.

“یک مشکل قابل حل”

از آنجا که VLM ها به طور معمول آموزش نمی بینند روی محققان با نفی ، محققان مجموعه داده هایی را با کلمات نفی به عنوان اولین قدم برای حل مسئله تهیه کردند.

آنها با استفاده از یک مجموعه داده با 10 میلیون زیرنویس تصویر تصویر ، LLM را برانگیختند تا زیرنویس های مرتبط را ارائه دهند که آنچه را که از تصاویر مستثنی است ، مشخص می کند و زیرنویس های جدیدی را با کلمات نفی ارائه می دهد.

آنها باید به خصوص مراقب باشند که این زیرنویس های مصنوعی هنوز به طور طبیعی خوانده می شوند ، یا می تواند باعث شود VLM در دنیای واقعی هنگام مواجهه با زیرنویس های پیچیده تر که توسط انسان نوشته شده است ، شکست بخورد.

آنها دریافتند که VLM های FinetUning با مجموعه داده های خود منجر به افزایش عملکرد در سراسر صفحه می شوند. این توانایی بازیابی تصویر مدل ها را حدود 10 درصد بهبود بخشیده است ، در حالی که عملکرد در پاسخ به سؤال چند گزینه ای را نیز در حدود 30 درصد افزایش می دهد.

“الهامود می گوید:” اما راه حل ما کامل نیست. ما فقط در حال بازپرداخت مجموعه داده ها هستیم ، نوعی تقویت داده ها. ما حتی روش عملکرد این مدل ها را لمس نکرده ایم ، اما امیدواریم که این یک سیگنال باشد که این یک مشکل قابل حل است و دیگران می توانند راه حل ما را بگیرند و آن را بهبود بخشند. “

در عین حال ، او امیدوار است که کار آنها کاربران بیشتری را ترغیب کند تا در مورد مشکلی که می خواهند از VLM استفاده کنند برای حل و طراحی برخی از نمونه ها برای آزمایش آن قبل از استقرار فکر کنند.

در آینده ، محققان می توانند با آموزش VLM به این کار گسترش یابند process متن و تصاویر به طور جداگانه ، که ممکن است توانایی آنها در درک نفی را بهبود بخشد. علاوه بر این ، آنها می توانند مجموعه داده های اضافی را ایجاد کنند که شامل جفت های تصویر برای برنامه های خاص مانند مراقبت های بهداشتی است.

منبع: https://news.mit.edu/1404/study-shows-vision-language-models-cant-handle-negation-words-queries-0514

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1404-05-14 17:09:13

امتیاز شما به این مطلب