سرور مجازی NVMe

مطالعه: شفافیت اغلب در مجموعه داده‌های مورد استفاده برای آموزش مدل‌های زبان بزرگ وجود ندارد

توسط مهران در شهریور 10, 1403

مطالعه: شفافیت اغلب در مجموعه داده‌های مورد استفاده برای آموزش مدل‌های زبان بزرگ وجود ندارد

زمان لازم برای مطالعه: 5 دقیقه

به منظور آموزش مدل‌های قدرتمندتر زبان بزرگ، محققان از مجموعه داده‌های گسترده‌ای استفاده می‌کنند که داده‌های متنوع از هزاران منبع وب را ترکیب می‌کند.

اما از آنجایی که این مجموعه داده‌ها با هم ترکیب می‌شوند و در مجموعه‌های متعددی دوباره ترکیب می‌شوند، اطلاعات مهمی در مورد منشاء و محدودیت‌های آن‌ها وجود دارد روی روش استفاده از آنها اغلب در این مخلوط گم می شوند یا گیج می شوند.

این نه تنها باعث ایجاد نگرانی های قانونی و اخلاقی می شود، بلکه می تواند به عملکرد یک مدل نیز آسیب برساند. به عنوان مثال، اگر یک مجموعه داده به اشتباه دسته بندی شود، شخصی که یک مدل یادگیری ماشینی را برای یک کار خاص آموزش می دهد ممکن است ناخواسته از داده هایی استفاده کند که برای آن کار طراحی نشده اند.

علاوه بر این، داده‌های منابع ناشناخته می‌تواند حاوی سوگیری‌هایی باشد که باعث می‌شود یک مدل هنگام استقرار پیش‌بینی‌های ناعادلانه انجام دهد.

برای بهبود شفافیت داده ها، تیمی از محققان چند رشته ای از MIT و جاهای دیگر، ممیزی سیستماتیک بیش از 1800 مجموعه داده متنی را راه اندازی کردند. روی سایت های هاست محبوب آنها دریافتند که بیش از 70 درصد از این مجموعه داده ها برخی از اطلاعات مجوز را حذف کرده اند، در حالی که حدود 50 درصد دارای اطلاعات حاوی خطا هستند.

آنها با تکیه بر این بینش ها، ابزاری کاربرپسند به نام Data Provenance Explorer ایجاد کردند که به طور خودکار خلاصه های آسان خوانی از سازندگان، منابع، مجوزها و کاربردهای مجاز مجموعه داده را تولید می کند.

الکس «سندی» پنتلند، استاد MIT، رهبر گروه دینامیک انسانی در آزمایشگاه رسانه MIT، و می‌گوید: «این نوع ابزارها می‌توانند به تنظیم‌کننده‌ها و متخصصان کمک کنند تا تصمیمات آگاهانه‌ای در مورد استقرار هوش مصنوعی بگیرند و توسعه مسئولانه هوش مصنوعی را بیشتر کنند. یکی از نویسندگان مقاله دسترسی آزاد جدید در مورد این پروژه.

Data Provenance Explorer می تواند به متخصصان هوش مصنوعی کمک کند تا با انتخاب مجموعه داده های آموزشی متناسب با هدف مدل خود، مدل های مؤثرتری بسازند. در درازمدت، این می‌تواند دقت مدل‌های هوش مصنوعی را در موقعیت‌های دنیای واقعی، مانند مدل‌هایی که برای ارزیابی برنامه‌های وام یا پاسخ به پرسش‌های مشتری استفاده می‌شوند، بهبود بخشد.

یکی از بهترین راه‌ها برای درک توانایی‌ها و محدودیت‌های یک مدل هوش مصنوعی، درک داده‌هایی است که آموزش داده شده است. روی. رابرت ماهاری، دانشجوی فارغ التحصیل در گروه دینامیک انسانی MIT، کاندیدای JD در دانشکده حقوق هاروارد و یکی از نویسنده‌های ارشد، می‌گوید: «وقتی درباره منبع داده‌ها به اشتباه و سردرگمی می‌خورید، با یک مشکل شفافیت جدی مواجه می‌شوید.» روی کاغذ

ماهاری و پنتلند ملحق شدند روی مقاله توسط نویسنده همکار Shayne Longpre، دانشجوی کارشناسی ارشد در آزمایشگاه رسانه. سارا هوکر، که رهبری آزمایشگاه تحقیقاتی Cohere برای هوش مصنوعی را بر عهده دارد. و همچنین سایرین در MIT، دانشگاه کالیفرنیا در ایروین، دانشگاه لیل در فرانسه، دانشگاه کلرادو در بولدر، کالج اولین، دانشگاه کارنگی ملون، هوش مصنوعی متنی، ML Commons و Tidelift. این تحقیق امروز در منتشر شده است هوش ماشین طبیعت.

تمرکز کنید روی تنظیم دقیق

پیشنهاد می‌کنیم بخوانید: MAD Design Fellows 1403 اعلام شد

محققان اغلب از تکنیکی به نام تنظیم دقیق برای بهبود قابلیت‌های یک مدل زبان بزرگ استفاده می‌کنند که برای یک کار خاص، مانند پاسخ‌گویی به سؤال، به کار می‌رود. برای تنظیم دقیق، آن‌ها با دقت مجموعه‌های داده‌ای را می‌سازند که برای تقویت عملکرد یک مدل برای این کار طراحی شده‌اند.

محققان MIT تمرکز کردند روی این مجموعه داده‌های تنظیم دقیق، که اغلب توسط محققان، سازمان‌های دانشگاهی یا شرکت‌ها توسعه داده می‌شوند و برای کاربردهای خاص مجوز دارند.

وقتی پلتفرم‌های crowdsourced چنین مجموعه‌ای از داده‌ها را در مجموعه‌های بزرگ‌تری جمع‌بندی می‌کنند تا پزشکان از آن برای تنظیم دقیق استفاده کنند، برخی از اطلاعات مجوز اصلی اغلب پشت سر گذاشته می‌شوند.

ماهاری می گوید: «این مجوزها باید مهم باشند و باید قابل اجرا باشند.

به عنوان مثال، اگر شرایط مجوز یک مجموعه داده اشتباه باشد یا وجود نداشته باشد، شخصی می‌تواند مقدار زیادی پول و زمان صرف توسعه مدلی کند که ممکن است بعدا مجبور به حذف آن شود زیرا برخی از داده‌های آموزشی حاوی اطلاعات خصوصی هستند.

لانگپر می‌افزاید: «مردم می‌توانند مدل‌های آموزشی را در جایی به پایان برسانند که حتی توانایی‌ها، نگرانی‌ها یا خطرات آن مدل‌ها را که در نهایت از داده‌ها سرچشمه می‌گیرند، درک نکنند».

برای شروع این مطالعه، محققان به طور رسمی منشأ داده را به عنوان ترکیبی از میراث یک مجموعه داده، ایجاد، و مجوز و همچنین ویژگی های آن تعریف کردند. از آنجا، آنها یک روش حسابرسی ساختاریافته را برای ردیابی منشأ داده های بیش از 1800 مجموعه داده متنی از مخازن آنلاین محبوب ایجاد کردند.

پس از اینکه محققان دریافتند بیش از 70 درصد از این مجموعه داده‌ها حاوی مجوزهای «نامشخص» هستند که اطلاعات زیادی را حذف می‌کنند، محققان به عقب کار کردند تا جاهای خالی را پر کنند. با تلاش‌های خود، آنها تعداد مجموعه‌های داده با مجوزهای «نامشخص» را به حدود 30 درصد کاهش دادند.

کار آنها همچنین نشان داد که مجوزهای صحیح اغلب محدودتر از مجوزهای اختصاص داده شده توسط مخازن هستند.

علاوه بر این، آن‌ها دریافتند که تقریباً تمام سازندگان مجموعه داده‌ها در شمال جهانی متمرکز شده‌اند، که می‌تواند قابلیت‌های یک مدل را در صورتی که برای استقرار در منطقه‌ای متفاوت آموزش داده شود، محدود کند. به عنوان مثال، ماهاری توضیح می‌دهد که مجموعه داده‌های زبان ترکی که عمدتاً توسط مردم ایالات متحده و چین ایجاد شده است، ممکن است حاوی هیچ جنبه فرهنگی مهمی نباشد.

او می‌گوید: «ما تقریباً خودمان را فریب می‌دهیم که فکر کنیم مجموعه‌های داده‌ها از آنچه واقعاً هستند متنوع‌تر هستند.

پیشنهاد می‌کنیم بخوانید: همکاری جامعه برای پیشرفت

جالب اینجاست که محققان همچنین شاهد افزایش چشمگیری در محدودیت های اعمال شده بودند روی مجموعه داده‌های ایجاد شده در سال‌های 1402 و 1403، که ممکن است ناشی از نگرانی دانشگاهیان در مورد استفاده از مجموعه داده‌های آنها برای مقاصد تجاری ناخواسته باشد.

یک ابزار کاربر پسند

برای کمک به دیگران برای به دست آوردن این اطلاعات بدون نیاز به ممیزی دستی، محققان کاوشگر Data Provenance را ساختند. علاوه بر مرتب سازی و فیلتر کردن مجموعه داده ها بر اساس روی معیارهای خاصی، این ابزار به کاربران اجازه می دهد تا یک کارت منشأ داده را دانلود کنند که یک نمای مختصر و ساختار یافته از ویژگی های مجموعه داده را ارائه می دهد.

ما امیدواریم که این گامی باشد، نه فقط برای درک چشم انداز، بلکه به مردم کمک کند تا انتخاب های آگاهانه تری در مورد داده هایی که آموزش می دهند انجام دهند. onماهاری می گوید.

در آینده، محققان می‌خواهند تحلیل خود را برای بررسی منشأ داده‌ها برای داده‌های چندوجهی، از جمله ویدئو و گفتار، گسترش دهند. آنها همچنین می خواهند چگونگی شرایط خدمات را مطالعه کنند روی وب‌سایت‌هایی که به‌عنوان منابع داده عمل می‌کنند، در مجموعه‌های داده منعکس می‌شوند.

همانطور که آنها تحقیقات خود را گسترش می دهند، آنها همچنین با تنظیم کننده ها تماس می گیرند تا در مورد یافته های خود و پیامدهای منحصر به فرد حق نسخه برداری تنظیم دقیق داده ها بحث کنند.

لانگپر می‌گوید: «ما از همان ابتدا به منشأ داده‌ها و شفافیت نیاز داریم، زمانی که مردم این مجموعه‌های داده را ایجاد و منتشر می‌کنند تا کسب این بینش را برای دیگران آسان‌تر کنیم.

استلا بیدرمن، مدیر اجرایی EleutherAI، می‌گوید: «بسیاری از مداخلات سیاستی پیشنهادی فرض می‌کنند که ما می‌توانیم مجوزهای مرتبط با داده‌ها را به درستی تخصیص و شناسایی کنیم، و این کار ابتدا نشان می‌دهد که اینطور نیست، و سپس به طور قابل توجهی اطلاعات منشأ موجود را بهبود می‌بخشد.» درگیر این کار نبود «علاوه بر این، بخش 3 شامل بحث حقوقی مرتبط است. این برای متخصصان یادگیری ماشین در خارج از شرکت‌هایی که به اندازه کافی بزرگ هستند که تیم‌های حقوقی اختصاصی داشته باشند بسیار ارزشمند است. بسیاری از افرادی که می‌خواهند سیستم‌های هوش مصنوعی را برای منافع عمومی بسازند، در حال حاضر بی‌سروصدا در تلاشند تا روش مدیریت مجوز داده‌ها را بیابند، زیرا اینترنت به گونه‌ای طراحی نشده است که منشأ داده‌ها را آسان کند.

منبع: https://news.mit.edu/1403/study-large-language-models-datasets-lack-transparency-0830

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-08-31 23:13:11

امتیاز شما به این مطلب