از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
محققان MIT از مدل های زبان بزرگ برای علامت گذاری مشکلات در سیستم های پیچیده استفاده می کنند
شناسایی یک توربین معیوب در مزرعه بادی، که میتواند شامل بررسی صدها سیگنال و میلیونها نقطه داده باشد، شبیه یافتن یک سوزن در انبار کاه است.
مهندسان اغلب این مشکل پیچیده را با استفاده از مدلهای یادگیری عمیق سادهسازی میکنند که میتوانند ناهنجاریها را در اندازهگیریهای مکرر در طول زمان توسط هر توربین شناسایی کنند، که به دادههای سری زمانی معروف است.
اما با وجود صدها توربین بادی که ده ها سیگنال را در هر ساعت ضبط می کنند، آموزش یک مدل یادگیری عمیق برای تجزیه و تحلیل داده های سری زمانی پرهزینه و دست و پا گیر است. این امر با این واقعیت ترکیب میشود که ممکن است این مدل پس از استقرار نیاز به آموزش مجدد داشته باشد و اپراتورهای مزرعه بادی ممکن است فاقد تخصص لازم در زمینه یادگیری ماشین باشند.
در یک مطالعه جدید، محققان MIT دریافتند که مدلهای زبان بزرگ (LLM) پتانسیل این را دارند که آشکارسازهای ناهنجاری کارآمدتری برای دادههای سری زمانی باشند. نکته مهم این است که این مدل های از پیش آموزش دیده را می توان مستقیماً خارج از جعبه مستقر کرد.
محققان چارچوبی به نام SigLLM ایجاد کردند که شامل مؤلفهای است که دادههای سری زمانی را به ورودیهای مبتنی بر متن تبدیل میکند. process. کاربر می تواند این داده های آماده شده را به مدل داده و از آن بخواهد که شروع به شناسایی ناهنجاری ها کند. LLM همچنین می تواند برای پیش بینی نقاط داده سری زمانی آینده به عنوان بخشی از خط لوله تشخیص ناهنجاری استفاده شود.
در حالی که LLM ها نمی توانند مدل های پیشرفته یادگیری عمیق را در تشخیص ناهنجاری شکست دهند، آنها مانند برخی از رویکردهای هوش مصنوعی دیگر عملکرد خوبی داشتند. اگر محققان بتوانند عملکرد LLM را بهبود بخشند، این چارچوب میتواند به تکنسینها کمک کند تا مشکلات احتمالی در تجهیزاتی مانند ماشینآلات سنگین یا ماهوارهها را قبل از وقوع، بدون نیاز به آموزش یک مدل یادگیری عمیق گران قیمت، علامتگذاری کنند.
سارا النگهایمیش، مهندسی برق و کامپیوتر می گوید: «از آنجایی که این اولین تکرار است، ما انتظار نداشتیم از همان ابتدا به آنجا برسیم، اما این نتایج نشان می دهد که در اینجا فرصتی برای استفاده از LLM برای کارهای پیچیده تشخیص ناهنجاری وجود دارد. دانش آموخته علوم (EECS) و نویسنده اصلی مقاله روی SigLLM.
از نویسندگان همکار او می توان به لین نگوین، یک دانشجوی کارشناسی ارشد EECS اشاره کرد. Laure Berti-Equille، مدیر پژوهشی در موسسه تحقیقات ملی فرانسه برای توسعه پایدار؛ و نویسنده ارشد Kalyan Veeramachaneni، دانشمند پژوهشی اصلی در آزمایشگاه اطلاعات و سیستم های تصمیم گیری. این تحقیق در کنفرانس IEEE ارائه خواهد شد روی علم داده و تجزیه و تحلیل پیشرفته
یک راه حل خارج از قفسه
مدلهای زبان بزرگ اتورگرسیو هستند، به این معنی که میتوانند بفهمند که جدیدترین مقادیر در دادههای متوالی بستگی دارد. روی مقادیر قبلی به عنوان مثال، مدل هایی مانند GPT-4 می توانند کلمه بعدی را با استفاده از کلمات قبل از آن پیش بینی کنند.
از آنجایی که دادههای سری زمانی متوالی هستند، محققان فکر کردند که ماهیت خودبازگشتی LLM ممکن است آنها را برای تشخیص ناهنجاریها در این نوع دادهها مناسب کند.
با این حال، آنها می خواستند تکنیکی را توسعه دهند که از تنظیم دقیق اجتناب کند process که در آن مهندسان یک LLM همه منظوره را بازآموزی می کنند روی مقدار کمی از داده های مربوط به کار برای تبدیل شدن آن به یک کار متخصص. در عوض، محققان یک LLM را در قفسه بدون هیچ مرحله آموزشی اضافی مستقر می کنند.
اما قبل از اینکه بتوانند آن را گسترش دهند، باید دادههای سری زمانی را به ورودیهای متنی تبدیل میکردند که مدل زبان میتوانست آن را مدیریت کند.
آنها این کار را از طریق دنبالهای از تبدیلها انجام دادند که مهمترین بخشهای سری زمانی را ثبت میکند و در عین حال دادههایی را با کمترین تعداد توکن نشان میدهد. توکن ها ورودی های اصلی یک LLM هستند و توکن های بیشتری نیاز به محاسبات بیشتری دارند.
Alnegheimish میگوید: «اگر این مراحل را با دقت زیاد انجام ندهید، ممکن است بخشی از دادههای مهم خود را حذف کنید و این اطلاعات را از دست بدهید.
هنگامی که آنها متوجه شدند که چگونه داده های سری زمانی را تغییر دهند، محققان دو رویکرد تشخیص ناهنجاری را توسعه دادند.
رویکردهای تشخیص ناهنجاری
برای اولی که آن را Prompter می نامند، داده های آماده شده را وارد مدل می کنند و از آن می خواهند تا مقادیر غیرعادی را پیدا کند.
ما مجبور شدیم چندین بار تکرار کنیم تا دستورات مناسب برای یک سری زمانی خاص را بفهمیم. درک اینکه این LLM ها چگونه و چگونه مصرف می کنند آسان نیست process داده ها،” Alnegheimish اضافه می کند.
برای رویکرد دوم، به نام آشکارساز، آنها از LLM به عنوان پیش بینی کننده برای پیش بینی مقدار بعدی از یک سری زمانی استفاده می کنند. محققین مقدار پیش بینی شده را با مقدار واقعی مقایسه می کنند. یک اختلاف بزرگ نشان می دهد که ارزش واقعی احتمالاً یک ناهنجاری است.
با Detector، LLM بخشی از خط لوله تشخیص ناهنجاری خواهد بود، در حالی که Prompter کار را کامل می کند. روی خودش در عمل، Detector بهتر از Prompter عمل کرد، که بسیاری از موارد مثبت کاذب را ایجاد کرد.
“من فکر می کنم، با رویکرد Prompter، ما از LLM می خواستیم که از حلقه های زیادی عبور کند. ما مشکل سخت تری برای حل آن ایجاد می کردیم.» ویراماچانی می گوید.
هنگامی که آنها هر دو رویکرد را با تکنیک های فعلی مقایسه کردند، آشکارساز از مدل های هوش مصنوعی مبتنی بر ترانسفورماتور بهتر عمل کرد روی هفت مورد از 11 مجموعه داده ای که آنها ارزیابی کردند، حتی اگر LLM نیازی به آموزش یا تنظیم دقیق نداشت.
در آینده، یک LLM ممکن است بتواند توضیحاتی را به زبان ساده با پیش بینی های خود ارائه دهد، بنابراین یک اپراتور بهتر می تواند درک کند که چرا یک LLM یک نقطه داده خاص را غیرعادی تشخیص داده است.
با این حال، مدلهای پیشرفتهی یادگیری عمیق با اختلاف زیادی از LLM ها بهتر عمل کردند، که نشان میدهد هنوز کار برای انجام دادن قبل از استفاده از LLM برای تشخیص ناهنجاری وجود دارد.
“برای رسیدن به نقطه ای که در حال انجام است و این مدل های پیشرفته چه کاری لازم است؟ این سوال میلیون دلاری است که در حال حاضر به ما خیره شده است. Veeramachaneni میگوید که یک آشکارساز ناهنجاری مبتنی بر LLM باید یک تغییر دهنده بازی برای ما باشد تا بتوانیم این نوع تلاش را توجیه کنیم.
با حرکت رو به جلو، محققان میخواهند ببینند که آیا تنظیم دقیق میتواند عملکرد را بهبود بخشد، اگرچه این کار به زمان، هزینه و تخصص بیشتری برای آموزش نیاز دارد.
رویکردهای LLM آنها نیز بین 30 دقیقه تا دو ساعت طول می کشد تا نتایج حاصل شود، بنابراین افزایش سرعت یکی از حوزه های کلیدی کار آینده است. محققان همچنین می خواهند LLM ها را بررسی کنند تا بفهمند چگونه تشخیص ناهنجاری را انجام می دهند، به این امید که راهی برای افزایش عملکرد آنها بیابند.
وقتی صحبت از وظایف پیچیده ای مانند تشخیص ناهنجاری در سری های زمانی می شود، LLM ها واقعاً یک رقیب هستند. شاید کارهای پیچیده دیگری را نیز بتوان با LLM ها حل کرد؟ النگهایمیش می گوید.
این تحقیق توسط SES SA، Iberdrola و ScottishPower Renewables و Hyundai Motor Company پشتیبانی شد.
منبع: https://news.mit.edu/1403/researchers-use-large-language-models-to-flag-problems-0814
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم
زمان انتشار: 1403-08-14 13:07:05