سرور مجازی NVMe

محققان MIT از مدل های زبان بزرگ برای علامت گذاری مشکلات در سیستم های پیچیده استفاده می کنند

توسط مهران در مرداد 24, 1403

محققان MIT از مدل های زبان بزرگ برای علامت گذاری مشکلات در سیستم های پیچیده استفاده می کنند

زمان لازم برای مطالعه: 5 دقیقه

شناسایی یک توربین معیوب در مزرعه بادی، که می‌تواند شامل بررسی صدها سیگنال و میلیون‌ها نقطه داده باشد، شبیه یافتن یک سوزن در انبار کاه است.

مهندسان اغلب این مشکل پیچیده را با استفاده از مدل‌های یادگیری عمیق ساده‌سازی می‌کنند که می‌توانند ناهنجاری‌ها را در اندازه‌گیری‌های مکرر در طول زمان توسط هر توربین شناسایی کنند، که به داده‌های سری زمانی معروف است.

اما با وجود صدها توربین بادی که ده ها سیگنال را در هر ساعت ضبط می کنند، آموزش یک مدل یادگیری عمیق برای تجزیه و تحلیل داده های سری زمانی پرهزینه و دست و پا گیر است. این امر با این واقعیت ترکیب می‌شود که ممکن است این مدل پس از استقرار نیاز به آموزش مجدد داشته باشد و اپراتورهای مزرعه بادی ممکن است فاقد تخصص لازم در زمینه یادگیری ماشین باشند.

در یک مطالعه جدید، محققان MIT دریافتند که مدل‌های زبان بزرگ (LLM) پتانسیل این را دارند که آشکارسازهای ناهنجاری کارآمدتری برای داده‌های سری زمانی باشند. نکته مهم این است که این مدل های از پیش آموزش دیده را می توان مستقیماً خارج از جعبه مستقر کرد.

محققان چارچوبی به نام SigLLM ایجاد کردند که شامل مؤلفه‌ای است که داده‌های سری زمانی را به ورودی‌های مبتنی بر متن تبدیل می‌کند. process. کاربر می تواند این داده های آماده شده را به مدل داده و از آن بخواهد که شروع به شناسایی ناهنجاری ها کند. LLM همچنین می تواند برای پیش بینی نقاط داده سری زمانی آینده به عنوان بخشی از خط لوله تشخیص ناهنجاری استفاده شود.

در حالی که LLM ها نمی توانند مدل های پیشرفته یادگیری عمیق را در تشخیص ناهنجاری شکست دهند، آنها مانند برخی از رویکردهای هوش مصنوعی دیگر عملکرد خوبی داشتند. اگر محققان بتوانند عملکرد LLM را بهبود بخشند، این چارچوب می‌تواند به تکنسین‌ها کمک کند تا مشکلات احتمالی در تجهیزاتی مانند ماشین‌آلات سنگین یا ماهواره‌ها را قبل از وقوع، بدون نیاز به آموزش یک مدل یادگیری عمیق گران قیمت، علامت‌گذاری کنند.

سارا النگهایمیش، مهندسی برق و کامپیوتر می گوید: «از آنجایی که این اولین تکرار است، ما انتظار نداشتیم از همان ابتدا به آنجا برسیم، اما این نتایج نشان می دهد که در اینجا فرصتی برای استفاده از LLM برای کارهای پیچیده تشخیص ناهنجاری وجود دارد. دانش آموخته علوم (EECS) و نویسنده اصلی مقاله روی SigLLM.

از نویسندگان همکار او می توان به لین نگوین، یک دانشجوی کارشناسی ارشد EECS اشاره کرد. Laure Berti-Equille، مدیر پژوهشی در موسسه تحقیقات ملی فرانسه برای توسعه پایدار؛ و نویسنده ارشد Kalyan Veeramachaneni، دانشمند پژوهشی اصلی در آزمایشگاه اطلاعات و سیستم های تصمیم گیری. این تحقیق در کنفرانس IEEE ارائه خواهد شد روی علم داده و تجزیه و تحلیل پیشرفته

پیشنهاد می‌کنیم بخوانید: چگونه می توان قابلیت اطمینان یک مدل هوش مصنوعی همه منظوره را قبل از استقرار آن ارزیابی کرد

یک راه حل خارج از قفسه

مدل‌های زبان بزرگ اتورگرسیو هستند، به این معنی که می‌توانند بفهمند که جدیدترین مقادیر در داده‌های متوالی بستگی دارد. روی مقادیر قبلی به عنوان مثال، مدل هایی مانند GPT-4 می توانند کلمه بعدی را با استفاده از کلمات قبل از آن پیش بینی کنند.

از آنجایی که داده‌های سری زمانی متوالی هستند، محققان فکر کردند که ماهیت خودبازگشتی LLM ممکن است آنها را برای تشخیص ناهنجاری‌ها در این نوع داده‌ها مناسب کند.

با این حال، آنها می خواستند تکنیکی را توسعه دهند که از تنظیم دقیق اجتناب کند process که در آن مهندسان یک LLM همه منظوره را بازآموزی می کنند روی مقدار کمی از داده های مربوط به کار برای تبدیل شدن آن به یک کار متخصص. در عوض، محققان یک LLM را در قفسه بدون هیچ مرحله آموزشی اضافی مستقر می کنند.

اما قبل از اینکه بتوانند آن را گسترش دهند، باید داده‌های سری زمانی را به ورودی‌های متنی تبدیل می‌کردند که مدل زبان می‌توانست آن را مدیریت کند.

آن‌ها این کار را از طریق دنباله‌ای از تبدیل‌ها انجام دادند که مهم‌ترین بخش‌های سری زمانی را ثبت می‌کند و در عین حال داده‌هایی را با کمترین تعداد توکن نشان می‌دهد. توکن ها ورودی های اصلی یک LLM هستند و توکن های بیشتری نیاز به محاسبات بیشتری دارند.

Alnegheimish می‌گوید: «اگر این مراحل را با دقت زیاد انجام ندهید، ممکن است بخشی از داده‌های مهم خود را حذف کنید و این اطلاعات را از دست بدهید.

هنگامی که آنها متوجه شدند که چگونه داده های سری زمانی را تغییر دهند، محققان دو رویکرد تشخیص ناهنجاری را توسعه دادند.

رویکردهای تشخیص ناهنجاری

برای اولی که آن را Prompter می نامند، داده های آماده شده را وارد مدل می کنند و از آن می خواهند تا مقادیر غیرعادی را پیدا کند.

ما مجبور شدیم چندین بار تکرار کنیم تا دستورات مناسب برای یک سری زمانی خاص را بفهمیم. درک اینکه این LLM ها چگونه و چگونه مصرف می کنند آسان نیست process داده ها،” Alnegheimish اضافه می کند.

برای رویکرد دوم، به نام آشکارساز، آنها از LLM به عنوان پیش بینی کننده برای پیش بینی مقدار بعدی از یک سری زمانی استفاده می کنند. محققین مقدار پیش بینی شده را با مقدار واقعی مقایسه می کنند. یک اختلاف بزرگ نشان می دهد که ارزش واقعی احتمالاً یک ناهنجاری است.

با Detector، LLM بخشی از خط لوله تشخیص ناهنجاری خواهد بود، در حالی که Prompter کار را کامل می کند. روی خودش در عمل، Detector بهتر از Prompter عمل کرد، که بسیاری از موارد مثبت کاذب را ایجاد کرد.

پیشنهاد می‌کنیم بخوانید: توانمندسازی تحقیقات نژادپرستی سیستمیک در MIT و فراتر از آن

“من فکر می کنم، با رویکرد Prompter، ما از LLM می خواستیم که از حلقه های زیادی عبور کند. ما مشکل سخت تری برای حل آن ایجاد می کردیم.» ویراماچانی می گوید.

هنگامی که آنها هر دو رویکرد را با تکنیک های فعلی مقایسه کردند، آشکارساز از مدل های هوش مصنوعی مبتنی بر ترانسفورماتور بهتر عمل کرد روی هفت مورد از 11 مجموعه داده ای که آنها ارزیابی کردند، حتی اگر LLM نیازی به آموزش یا تنظیم دقیق نداشت.

در آینده، یک LLM ممکن است بتواند توضیحاتی را به زبان ساده با پیش بینی های خود ارائه دهد، بنابراین یک اپراتور بهتر می تواند درک کند که چرا یک LLM یک نقطه داده خاص را غیرعادی تشخیص داده است.

با این حال، مدل‌های پیشرفته‌ی یادگیری عمیق با اختلاف زیادی از LLM ها بهتر عمل کردند، که نشان می‌دهد هنوز کار برای انجام دادن قبل از استفاده از LLM برای تشخیص ناهنجاری وجود دارد.

“برای رسیدن به نقطه ای که در حال انجام است و این مدل های پیشرفته چه کاری لازم است؟ این سوال میلیون دلاری است که در حال حاضر به ما خیره شده است. Veeramachaneni می‌گوید که یک آشکارساز ناهنجاری مبتنی بر LLM باید یک تغییر دهنده بازی برای ما باشد تا بتوانیم این نوع تلاش را توجیه کنیم.

با حرکت رو به جلو، محققان می‌خواهند ببینند که آیا تنظیم دقیق می‌تواند عملکرد را بهبود بخشد، اگرچه این کار به زمان، هزینه و تخصص بیشتری برای آموزش نیاز دارد.

رویکردهای LLM آنها نیز بین 30 دقیقه تا دو ساعت طول می کشد تا نتایج حاصل شود، بنابراین افزایش سرعت یکی از حوزه های کلیدی کار آینده است. محققان همچنین می خواهند LLM ها را بررسی کنند تا بفهمند چگونه تشخیص ناهنجاری را انجام می دهند، به این امید که راهی برای افزایش عملکرد آنها بیابند.

وقتی صحبت از وظایف پیچیده ای مانند تشخیص ناهنجاری در سری های زمانی می شود، LLM ها واقعاً یک رقیب هستند. شاید کارهای پیچیده دیگری را نیز بتوان با LLM ها حل کرد؟ النگهایمیش می گوید.

این تحقیق توسط SES SA، Iberdrola و ScottishPower Renewables و Hyundai Motor Company پشتیبانی شد.

منبع: https://news.mit.edu/1403/researchers-use-large-language-models-to-flag-problems-0814

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-08-14 13:07:05

امتیاز شما به این مطلب