از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
مطالعه: شفافیت اغلب در مجموعه دادههای مورد استفاده برای آموزش مدلهای زبان بزرگ وجود ندارد
به منظور آموزش مدلهای قدرتمندتر زبان بزرگ، محققان از مجموعه دادههای گستردهای استفاده میکنند که دادههای متنوع از هزاران منبع وب را ترکیب میکند.
اما از آنجایی که این مجموعه دادهها با هم ترکیب میشوند و در مجموعههای متعددی دوباره ترکیب میشوند، اطلاعات مهمی در مورد منشاء و محدودیتهای آنها وجود دارد روی روش استفاده از آنها اغلب در این مخلوط گم می شوند یا گیج می شوند.
این نه تنها باعث ایجاد نگرانی های قانونی و اخلاقی می شود، بلکه می تواند به عملکرد یک مدل نیز آسیب برساند. به عنوان مثال، اگر یک مجموعه داده به اشتباه دسته بندی شود، شخصی که یک مدل یادگیری ماشینی را برای یک کار خاص آموزش می دهد ممکن است ناخواسته از داده هایی استفاده کند که برای آن کار طراحی نشده اند.
علاوه بر این، دادههای منابع ناشناخته میتواند حاوی سوگیریهایی باشد که باعث میشود یک مدل هنگام استقرار پیشبینیهای ناعادلانه انجام دهد.
برای بهبود شفافیت داده ها، تیمی از محققان چند رشته ای از MIT و جاهای دیگر، ممیزی سیستماتیک بیش از 1800 مجموعه داده متنی را راه اندازی کردند. روی سایت های هاست محبوب آنها دریافتند که بیش از 70 درصد از این مجموعه داده ها برخی از اطلاعات مجوز را حذف کرده اند، در حالی که حدود 50 درصد دارای اطلاعات حاوی خطا هستند.
آنها با تکیه بر این بینش ها، ابزاری کاربرپسند به نام Data Provenance Explorer ایجاد کردند که به طور خودکار خلاصه های آسان خوانی از سازندگان، منابع، مجوزها و کاربردهای مجاز مجموعه داده را تولید می کند.
الکس «سندی» پنتلند، استاد MIT، رهبر گروه دینامیک انسانی در آزمایشگاه رسانه MIT، و میگوید: «این نوع ابزارها میتوانند به تنظیمکنندهها و متخصصان کمک کنند تا تصمیمات آگاهانهای در مورد استقرار هوش مصنوعی بگیرند و توسعه مسئولانه هوش مصنوعی را بیشتر کنند. یکی از نویسندگان مقاله دسترسی آزاد جدید در مورد این پروژه.
Data Provenance Explorer می تواند به متخصصان هوش مصنوعی کمک کند تا با انتخاب مجموعه داده های آموزشی متناسب با هدف مدل خود، مدل های مؤثرتری بسازند. در درازمدت، این میتواند دقت مدلهای هوش مصنوعی را در موقعیتهای دنیای واقعی، مانند مدلهایی که برای ارزیابی برنامههای وام یا پاسخ به پرسشهای مشتری استفاده میشوند، بهبود بخشد.
یکی از بهترین راهها برای درک تواناییها و محدودیتهای یک مدل هوش مصنوعی، درک دادههایی است که آموزش داده شده است. روی. رابرت ماهاری، دانشجوی فارغ التحصیل در گروه دینامیک انسانی MIT، کاندیدای JD در دانشکده حقوق هاروارد و یکی از نویسندههای ارشد، میگوید: «وقتی درباره منبع دادهها به اشتباه و سردرگمی میخورید، با یک مشکل شفافیت جدی مواجه میشوید.» روی کاغذ
ماهاری و پنتلند ملحق شدند روی مقاله توسط نویسنده همکار Shayne Longpre، دانشجوی کارشناسی ارشد در آزمایشگاه رسانه. سارا هوکر، که رهبری آزمایشگاه تحقیقاتی Cohere برای هوش مصنوعی را بر عهده دارد. و همچنین سایرین در MIT، دانشگاه کالیفرنیا در ایروین، دانشگاه لیل در فرانسه، دانشگاه کلرادو در بولدر، کالج اولین، دانشگاه کارنگی ملون، هوش مصنوعی متنی، ML Commons و Tidelift. این تحقیق امروز در منتشر شده است هوش ماشین طبیعت.
تمرکز کنید روی تنظیم دقیق
محققان اغلب از تکنیکی به نام تنظیم دقیق برای بهبود قابلیتهای یک مدل زبان بزرگ استفاده میکنند که برای یک کار خاص، مانند پاسخگویی به سؤال، به کار میرود. برای تنظیم دقیق، آنها با دقت مجموعههای دادهای را میسازند که برای تقویت عملکرد یک مدل برای این کار طراحی شدهاند.
محققان MIT تمرکز کردند روی این مجموعه دادههای تنظیم دقیق، که اغلب توسط محققان، سازمانهای دانشگاهی یا شرکتها توسعه داده میشوند و برای کاربردهای خاص مجوز دارند.
وقتی پلتفرمهای crowdsourced چنین مجموعهای از دادهها را در مجموعههای بزرگتری جمعبندی میکنند تا پزشکان از آن برای تنظیم دقیق استفاده کنند، برخی از اطلاعات مجوز اصلی اغلب پشت سر گذاشته میشوند.
ماهاری می گوید: «این مجوزها باید مهم باشند و باید قابل اجرا باشند.
به عنوان مثال، اگر شرایط مجوز یک مجموعه داده اشتباه باشد یا وجود نداشته باشد، شخصی میتواند مقدار زیادی پول و زمان صرف توسعه مدلی کند که ممکن است بعدا مجبور به حذف آن شود زیرا برخی از دادههای آموزشی حاوی اطلاعات خصوصی هستند.
لانگپر میافزاید: «مردم میتوانند مدلهای آموزشی را در جایی به پایان برسانند که حتی تواناییها، نگرانیها یا خطرات آن مدلها را که در نهایت از دادهها سرچشمه میگیرند، درک نکنند».
برای شروع این مطالعه، محققان به طور رسمی منشأ داده را به عنوان ترکیبی از میراث یک مجموعه داده، ایجاد، و مجوز و همچنین ویژگی های آن تعریف کردند. از آنجا، آنها یک روش حسابرسی ساختاریافته را برای ردیابی منشأ داده های بیش از 1800 مجموعه داده متنی از مخازن آنلاین محبوب ایجاد کردند.
پس از اینکه محققان دریافتند بیش از 70 درصد از این مجموعه دادهها حاوی مجوزهای «نامشخص» هستند که اطلاعات زیادی را حذف میکنند، محققان به عقب کار کردند تا جاهای خالی را پر کنند. با تلاشهای خود، آنها تعداد مجموعههای داده با مجوزهای «نامشخص» را به حدود 30 درصد کاهش دادند.
کار آنها همچنین نشان داد که مجوزهای صحیح اغلب محدودتر از مجوزهای اختصاص داده شده توسط مخازن هستند.
علاوه بر این، آنها دریافتند که تقریباً تمام سازندگان مجموعه دادهها در شمال جهانی متمرکز شدهاند، که میتواند قابلیتهای یک مدل را در صورتی که برای استقرار در منطقهای متفاوت آموزش داده شود، محدود کند. به عنوان مثال، ماهاری توضیح میدهد که مجموعه دادههای زبان ترکی که عمدتاً توسط مردم ایالات متحده و چین ایجاد شده است، ممکن است حاوی هیچ جنبه فرهنگی مهمی نباشد.
او میگوید: «ما تقریباً خودمان را فریب میدهیم که فکر کنیم مجموعههای دادهها از آنچه واقعاً هستند متنوعتر هستند.
جالب اینجاست که محققان همچنین شاهد افزایش چشمگیری در محدودیت های اعمال شده بودند روی مجموعه دادههای ایجاد شده در سالهای 1402 و 1403، که ممکن است ناشی از نگرانی دانشگاهیان در مورد استفاده از مجموعه دادههای آنها برای مقاصد تجاری ناخواسته باشد.
یک ابزار کاربر پسند
برای کمک به دیگران برای به دست آوردن این اطلاعات بدون نیاز به ممیزی دستی، محققان کاوشگر Data Provenance را ساختند. علاوه بر مرتب سازی و فیلتر کردن مجموعه داده ها بر اساس روی معیارهای خاصی، این ابزار به کاربران اجازه می دهد تا یک کارت منشأ داده را دانلود کنند که یک نمای مختصر و ساختار یافته از ویژگی های مجموعه داده را ارائه می دهد.
ما امیدواریم که این گامی باشد، نه فقط برای درک چشم انداز، بلکه به مردم کمک کند تا انتخاب های آگاهانه تری در مورد داده هایی که آموزش می دهند انجام دهند. onماهاری می گوید.
در آینده، محققان میخواهند تحلیل خود را برای بررسی منشأ دادهها برای دادههای چندوجهی، از جمله ویدئو و گفتار، گسترش دهند. آنها همچنین می خواهند چگونگی شرایط خدمات را مطالعه کنند روی وبسایتهایی که بهعنوان منابع داده عمل میکنند، در مجموعههای داده منعکس میشوند.
همانطور که آنها تحقیقات خود را گسترش می دهند، آنها همچنین با تنظیم کننده ها تماس می گیرند تا در مورد یافته های خود و پیامدهای منحصر به فرد حق نسخه برداری تنظیم دقیق داده ها بحث کنند.
لانگپر میگوید: «ما از همان ابتدا به منشأ دادهها و شفافیت نیاز داریم، زمانی که مردم این مجموعههای داده را ایجاد و منتشر میکنند تا کسب این بینش را برای دیگران آسانتر کنیم.
استلا بیدرمن، مدیر اجرایی EleutherAI، میگوید: «بسیاری از مداخلات سیاستی پیشنهادی فرض میکنند که ما میتوانیم مجوزهای مرتبط با دادهها را به درستی تخصیص و شناسایی کنیم، و این کار ابتدا نشان میدهد که اینطور نیست، و سپس به طور قابل توجهی اطلاعات منشأ موجود را بهبود میبخشد.» درگیر این کار نبود «علاوه بر این، بخش 3 شامل بحث حقوقی مرتبط است. این برای متخصصان یادگیری ماشین در خارج از شرکتهایی که به اندازه کافی بزرگ هستند که تیمهای حقوقی اختصاصی داشته باشند بسیار ارزشمند است. بسیاری از افرادی که میخواهند سیستمهای هوش مصنوعی را برای منافع عمومی بسازند، در حال حاضر بیسروصدا در تلاشند تا روش مدیریت مجوز دادهها را بیابند، زیرا اینترنت به گونهای طراحی نشده است که منشأ دادهها را آسان کند.
منبع: https://news.mit.edu/1403/study-large-language-models-datasets-lack-transparency-0830
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم
زمان انتشار: 1403-08-31 23:13:11