سرور مجازی NVMe

محققان با حفظ یا بهبود دقت، سوگیری را در مدل‌های هوش مصنوعی کاهش می‌دهند

توسط مهران در آذر 21, 1403

محققان با حفظ یا بهبود دقت، سوگیری را در مدل‌های هوش مصنوعی کاهش می‌دهند

زمان لازم برای مطالعه: 4 دقیقه

مدل‌های یادگیری ماشینی زمانی که سعی می‌کنند برای افرادی که در مجموعه داده‌هایی که آموزش دیده‌اند کمتر نشان داده شده‌اند پیش‌بینی کنند ممکن است شکست بخورند. روی.

به عنوان مثال، مدلی که بهترین گزینه درمانی را برای فردی مبتلا به بیماری مزمن پیش‌بینی می‌کند، ممکن است با استفاده از مجموعه داده‌ای که بیشتر شامل بیماران مرد است آموزش داده شود. این مدل ممکن است پیش‌بینی‌های نادرستی را برای بیماران زن هنگام استقرار در بیمارستان انجام دهد.

برای بهبود نتایج، مهندسان می‌توانند با حذف نقاط داده، مجموعه داده‌های آموزشی را متعادل کنند تا زمانی که همه زیر گروه‌ها به طور مساوی نمایش داده شوند. در حالی که تعادل مجموعه داده امیدوارکننده است، اغلب نیاز به حذف حجم زیادی از داده ها دارد که به عملکرد کلی مدل لطمه می زند.

محققان MIT تکنیک جدیدی را توسعه دادند که نقاط خاصی را در مجموعه داده های آموزشی شناسایی و حذف می کند که بیشترین سهم را در شکست یک مدل دارد. روی زیر گروه های اقلیت این تکنیک با حذف نقاط داده بسیار کمتری نسبت به سایر روش‌ها، دقت کلی مدل را حفظ می‌کند و در عین حال عملکرد آن را در مورد گروه‌های کمتر ارائه شده بهبود می‌بخشد.

علاوه بر این، این تکنیک می‌تواند منابع پنهان سوگیری را در مجموعه داده‌های آموزشی که فاقد برچسب هستند، شناسایی کند. داده های بدون برچسب برای بسیاری از برنامه ها بسیار رایج تر از داده های برچسب دار هستند.

این روش همچنین می‌تواند با روش‌های دیگر ترکیب شود تا عادلانه بودن مدل‌های یادگیری ماشینی را که در موقعیت‌های پرمخاطره مستقر می‌شوند، بهبود بخشد. به عنوان مثال، ممکن است روزی اطمینان حاصل شود که بیمارانی که کمتر معرفی شده اند به دلیل یک مدل هوش مصنوعی مغرضانه تشخیص داده نمی شوند.

بسیاری از الگوریتم‌های دیگری که سعی در رسیدگی به این مشکل دارند، فرض می‌کنند که هر نقطه داده به اندازه هر نقطه داده دیگر اهمیت دارد. در این مقاله نشان می‌دهیم که این فرض درست نیست. کیمیا حمیدیه، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) در MIT و شرکت می گوید: نقاط خاصی در مجموعه داده ما وجود دارد که به این سوگیری کمک می کند، و ما می توانیم آن نقاط داده را پیدا کنیم، آنها را حذف کنیم و عملکرد بهتری داشته باشیم. -نویسنده اصلی مقاله روی این تکنیک

او مقاله را با نویسندگان ارشد ساچی جین دکترای 24 و همکار دانشجوی فارغ التحصیل EECS کریستیان گئورگیف نوشت. اندرو ایلیاس MEng ’18، دکترای ’23، عضو استاین در دانشگاه استنفورد. و نویسندگان ارشد مرضیه قاسمی، دانشیار EECS و عضو انستیتوی علوم مهندسی پزشکی و آزمایشگاه سیستم های اطلاعات و تصمیم گیری، و الکساندر مدری، استاد سیستم های طراحی Cadence در MIT. این تحقیق در کنفرانس ارائه خواهد شد روی سیستم های پردازش اطلاعات عصبی

پیشنهاد می‌کنیم بخوانید: 3 سوال: آنچه باید در مورد دیپ فیک های صوتی بدانید

حذف نمونه های بد

اغلب، مدل‌های یادگیری ماشینی با استفاده از مجموعه داده‌های عظیمی که از منابع زیادی در سراسر اینترنت جمع‌آوری شده‌اند، آموزش داده می‌شوند. این مجموعه داده‌ها بسیار بزرگ‌تر از آن هستند که به‌دقت با دست تنظیم شوند، بنابراین ممکن است حاوی نمونه‌های بدی باشند که به عملکرد مدل آسیب می‌زند.

دانشمندان همچنین می دانند که برخی از نقاط داده بر عملکرد یک مدل تأثیر می گذارد روی برخی از وظایف پایین دستی بیش از سایرین.

محققان MIT این دو ایده را در رویکردی ترکیب کردند که این نقاط داده مشکل ساز را شناسایی و حذف می کند. آنها به دنبال حل مشکلی هستند که به عنوان خطای بدترین گروه شناخته می شود، که زمانی رخ می دهد که یک مدل ضعیف عمل کند. روی زیر گروه های اقلیت در یک مجموعه داده آموزشی

تکنیک جدید محققان با کار قبلی هدایت می شود که در آن آنها روشی به نام TRAK را معرفی کردند که مهمترین نمونه های آموزشی را برای خروجی مدل خاص شناسایی می کند.

برای این تکنیک جدید، آنها پیش‌بینی‌های نادرستی را که مدل در مورد زیرگروه‌های اقلیت ایجاد کرده بود انجام می‌دهند و از TRAK برای شناسایی اینکه کدام نمونه‌های آموزشی بیشترین کمک را در پیش‌بینی نادرست داشته است، استفاده می‌کنند.

ایلاس توضیح می‌دهد: «با جمع‌آوری این اطلاعات در بین پیش‌بینی‌های تست بد به روش صحیح، می‌توانیم بخش‌های خاصی از آموزش را پیدا کنیم که باعث کاهش دقت در بدترین گروه می‌شود.

سپس آن نمونه های خاص را حذف می کنند و مدل را دوباره آموزش می دهند روی داده های باقی مانده

از آنجایی که داشتن داده‌های بیشتر معمولاً عملکرد کلی بهتری را به همراه دارد، حذف نمونه‌هایی که منجر به بدترین شکست‌های گروه می‌شوند، دقت کلی مدل را حفظ می‌کند و در عین حال عملکرد آن را افزایش می‌دهد. روی زیر گروه های اقلیت

یک رویکرد در دسترس تر

در سه مجموعه داده یادگیری ماشینی، روش آنها از چندین تکنیک بهتر عمل کرد. در یک نمونه، دقت بدترین گروه را افزایش داد و در عین حال حدود 20000 نمونه آموزشی کمتر را نسبت به روش متوازن داده های مرسوم حذف کرد. روش آنها همچنین به دقت بالاتری نسبت به روش هایی دست یافت که نیاز به ایجاد تغییراتی در عملکرد داخلی یک مدل دارند.

پیشنهاد می‌کنیم بخوانید: در مورد هوش مصنوعی در سلامت چه باید کرد؟

از آنجایی که روش MIT به جای آن شامل تغییر یک مجموعه داده می‌شود، استفاده از آن برای یک پزشک آسان‌تر است و می‌تواند برای بسیاری از انواع مدل‌ها اعمال شود.

همچنین زمانی که سوگیری ناشناخته است، می‌توان از آن استفاده کرد، زیرا زیرگروه‌های موجود در مجموعه داده آموزشی برچسب‌گذاری نمی‌شوند. با شناسایی نقاط داده‌ای که بیشترین کمک را به ویژگی‌هایی که مدل در حال یادگیری است، دارند، می‌توانند متغیرهایی را که برای پیش‌بینی استفاده می‌کند، درک کنند.

این ابزاری است که هر کسی می‌تواند از آن برای آموزش یک مدل یادگیری ماشینی استفاده کند. حمیدیه می‌گوید: «آن‌ها می‌توانند به آن نقطه‌های داده نگاه کنند و ببینند که آیا با قابلیتی که می‌خواهند مدل را آموزش دهند، همسو هستند یا خیر».

استفاده از این تکنیک برای تشخیص سوگیری زیرگروهی ناشناخته نیاز به شهودی در مورد اینکه کدام گروه را باید جستجو کرد، دارد، بنابراین محققان امیدوارند که آن را تأیید کنند و از طریق مطالعات انسانی آینده آن را به طور کامل کاوش کنند.

آنها همچنین می‌خواهند عملکرد و قابلیت اطمینان تکنیک خود را بهبود بخشند و اطمینان حاصل کنند که روش برای تمرین‌کنندگانی که روزی می‌توانند آن را در محیط‌های دنیای واقعی به کار گیرند، در دسترس و استفاده آسان است.

زمانی که ابزارهایی دارید که به شما امکان می‌دهد به طور انتقادی به داده‌ها نگاه کنید و بفهمید کدام نقطه‌های داده منجر به سوگیری یا سایر رفتارهای نامطلوب می‌شوند، اولین قدم به سمت ساخت مدل‌هایی است که منصفانه‌تر و قابل اعتمادتر هستند. الیاس می گوید.

این کار تا حدی توسط بنیاد ملی علوم و آژانس پروژه های تحقیقاتی پیشرفته دفاعی ایالات متحده تامین می شود.

منبع: https://news.mit.edu/1403/researchers-reduce-bias-ai-models-while-preserving-improving-accuracy-1211

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-12-11 08:42:07

امتیاز شما به این مطلب