از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
به دنبال یک اقدام خاص در یک ویدیو هستید؟ این روش مبتنی بر هوش مصنوعی می تواند آن را برای شما پیدا کند
اینترنت مملو از ویدیوهای آموزشی است که می تواند به بینندگان کنجکاو همه چیز را از پختن پنکیک عالی گرفته تا انجام یک مانور حیاتی Heimlich را آموزش دهد.
اما تعیین دقیق زمان و مکان یک عمل خاص در یک ویدیوی طولانی می تواند خسته کننده باشد. برای ساده کردن process، دانشمندان در تلاش هستند تا انجام این وظیفه را به رایانه ها آموزش دهند. در حالت ایدهآل، یک کاربر فقط میتواند اقدامی را که به دنبال آن است توصیف کند و یک مدل هوش مصنوعی به مکان خود در ویدیو پرش کند.
با این حال، آموزش مدلهای یادگیری ماشینی برای انجام این کار، معمولاً به مقدار زیادی دادههای ویدیویی گرانقیمت نیاز دارد که به سختی به صورت دستی برچسبگذاری شدهاند.
یک رویکرد جدید و کارآمدتر از سوی محققان MIT و آزمایشگاه هوش مصنوعی واتسون MIT-IBM، مدلی را برای انجام این کار، معروف به زمینگذاری مکانی-زمانی، تنها با استفاده از ویدئوها و رونوشتهای تولید شده بهطور خودکار آنها آموزش میدهد.
محققان مدلی را برای درک یک ویدیوی بدون برچسب به دو روش متمایز آموزش می دهند: با مشاهده جزئیات کوچک برای یافتن محل قرارگیری اشیاء (اطلاعات مکانی) و نگاه به تصویر بزرگتر برای درک زمان وقوع آن (اطلاعات زمانی).
در مقایسه با سایر رویکردهای هوش مصنوعی، روش آنها اقدامات در ویدیوهای طولانی تر با فعالیت های متعدد را با دقت بیشتری شناسایی می کند. جالب اینجاست که آنها متوجه شدند که به طور همزمان تمرین می کنند روی اطلاعات مکانی و زمانی یک مدل را در شناسایی هر یک به صورت جداگانه بهتر می کند.
علاوه بر سادهسازی فرآیندهای آموزش آنلاین و آموزش مجازی، این تکنیک میتواند در تنظیمات مراقبتهای بهداشتی نیز با یافتن سریع لحظات کلیدی در ویدیوهای روشهای تشخیصی مفید باشد.
ما چالش تلاش برای رمزگذاری اطلاعات مکانی و زمانی را به یکباره از هم جدا میکنیم و در عوض مانند دو کارشناس در مورد آن فکر میکنیم. روی خود آنها، که معلوم می شود راه صریح تری برای رمزگذاری اطلاعات است. برایان چن، نویسنده اصلی مقاله می گوید مدل ما که این دو شاخه مجزا را ترکیب می کند، به بهترین عملکرد منجر می شود. روی این تکنیک
چن، فارغ التحصیل سال 1402 از دانشگاه کلمبیا که این تحقیق را در حالی که یک دانشجوی مهمان در آزمایشگاه هوش مصنوعی MIT-IBM Watson AI انجام داد، به آن ملحق شد. روی مقاله جیمز گلس، دانشمند تحقیقاتی ارشد، عضو آزمایشگاه هوش مصنوعی واتسون MIT-IBM، و رئیس گروه سیستم های زبان گفتاری در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL). هیلد کوئنه، یکی از اعضای آزمایشگاه هوش مصنوعی واتسون MIT-IBM که همچنین به دانشگاه گوته فرانکفورت وابسته است. و دیگران در MIT، دانشگاه گوته، آزمایشگاه هوش مصنوعی MIT-IBM Watson و Quality Match GmbH. این تحقیق در کنفرانس ارائه خواهد شد روی بینایی کامپیوتری و تشخیص الگو.
یادگیری جهانی و محلی
محققان معمولاً با استفاده از ویدئوهایی که در آن انسانها زمان شروع و پایان کارهای خاص را شرح دادهاند، به مدلها آموزش میدهند تا زمینبندی مکانی-زمانی را انجام دهند.
نه تنها تولید این داده ها پرهزینه است، بلکه تشخیص اینکه دقیقاً چه چیزی را باید برچسب گذاری کنند، برای انسان دشوار است. اگر عمل «پختن یک پنکیک» باشد، آیا زمانی که سرآشپز شروع به مخلوط کردن خمیر میکند یا وقتی آن را در تابه میریزد، این عمل شروع میشود؟
این بار، کار ممکن است در مورد پخت و پز باشد، اما دفعه بعد، ممکن است در مورد تعمیر ماشین باشد. دامنه های مختلفی برای افراد وجود دارد که می توانند حاشیه نویسی کنند. اما اگر بتوانیم همه چیز را بدون برچسب یاد بگیریم، راه حل کلی تری است.
برای رویکرد خود، محققان از ویدیوهای آموزشی بدون برچسب و متن متنی همراه از وب سایتی مانند YouTube به عنوان داده آموزشی استفاده می کنند. اینها نیاز به آماده سازی خاصی ندارند.
آنها آموزش را تقسیم کردند process به دو قطعه برای اولین بار، آنها به یک مدل یادگیری ماشینی آموزش می دهند که به کل ویدیو نگاه کند تا بفهمد در زمان های خاص چه اقداماتی اتفاق می افتد. این اطلاعات سطح بالا، نمایش جهانی نامیده می شود.
برای دوم، آنها به مدل یاد می دهند که تمرکز کند روی یک منطقه خاص در بخشهایی از ویدیو که در آن اقدام در حال انجام است. به عنوان مثال، در یک آشپزخانه بزرگ، مدل ممکن است فقط نیاز به تمرکز داشته باشد روی قاشق چوبی که یک سرآشپز برای مخلوط کردن خمیر پنکیک استفاده می کند، نه کل پیشخوان. به این اطلاعات ریز، یک نمایش محلی می گویند.
محققان یک جزء اضافی را در چارچوب خود گنجانده اند تا ناهماهنگی هایی را که بین روایت و ویدیو رخ می دهد، کاهش دهند. شاید سرآشپز ابتدا در مورد پختن پنکیک صحبت کرده و بعداً این عمل را انجام دهد.
برای توسعه یک راه حل واقعی تر، محققان تمرکز کردند روی ویدیوهای قطع نشده چند دقیقه ای در مقابل، بیشتر تکنیکهای هوش مصنوعی با استفاده از کلیپهای چند ثانیهای تمرین میکنند که شخصی آنها را برای نمایش تنها یک عمل کوتاه کرده است.
یک معیار جدید
اما هنگامی که آنها به ارزیابی رویکرد خود رسیدند، محققان نتوانستند معیار موثری برای آزمایش یک مدل پیدا کنند. روی این ویدیوهای بلندتر و برش نخورده – بنابراین آنها یکی را ایجاد کردند.
برای ساخت مجموعه داده معیار خود، محققان یک تکنیک حاشیه نویسی جدید ابداع کردند که برای شناسایی اقدامات چند مرحله ای به خوبی کار می کند. آنها از کاربران خواستند که محل تلاقی اشیاء را علامت گذاری کنند، مانند نقطه ای که لبه چاقو گوجه فرنگی را برش می دهد، به جای کشیدن یک جعبه در اطراف اشیاء مهم.
“این واضح تر تعریف شده و حاشیه نویسی را سرعت می بخشد processچن می گوید، که کار و هزینه انسانی را کاهش می دهد.
به علاوه، داشتن چند نفر حاشیه نویسی نقطه ای را انجام می دهند روی همین ویدیو میتواند اقداماتی را که در طول زمان رخ میدهند، مانند جریان شیر ریخته شده، بهتر به تصویر بکشد. همه حاشیه نویس ها دقیقاً همان نقطه را در جریان مایع علامت گذاری نمی کنند.
هنگامی که آنها از این معیار برای آزمایش رویکرد خود استفاده کردند، محققان دریافتند که در تعیین دقیق اقدامات نسبت به سایر تکنیک های هوش مصنوعی دقیق تر است.
روش آنها نیز در تمرکز بهتر بود روی تعاملات انسان و شی بهعنوان مثال، اگر عمل «ارائه یک پنکیک» باشد، بسیاری از رویکردهای دیگر ممکن است فقط تمرکز کنند روی اشیاء کلیدی، مانند یک پشته پنکیک نشسته روی یک شمارنده. در عوض، روش آنها متمرکز است روی لحظه واقعی زمانی که سرآشپز یک پنکیک را در بشقاب می اندازد.
رویکردهای موجود به شدت متکی هستند روی داده های برچسب گذاری شده از انسان، و بنابراین بسیار مقیاس پذیر نیستند. این اثر با ارائه روشهای جدید برای بومیسازی رویدادها در مکان و زمان با استفاده از گفتاری که به طور طبیعی در درون آنها رخ میدهد، گامی در جهت رفع این مشکل برمیدارد. این نوع داده در همه جا وجود دارد، بنابراین در تئوری یک سیگنال یادگیری قدرتمند خواهد بود. با این حال، اغلب به چیزی که هست کاملاً بی ربط است روی صفحه نمایش، استفاده از آن را در سیستم های یادگیری ماشینی سخت می کند. اندرو اونز، استادیار مهندسی برق و علوم کامپیوتر در دانشگاه میشیگان می گوید: این کار به پرداختن به این موضوع کمک می کند و ایجاد سیستم هایی را برای محققان آسان تر می کند که در آینده از این شکل از داده های چندوجهی استفاده کنند. این کار.
در مرحله بعد، محققان قصد دارند رویکرد خود را ارتقا دهند تا مدلها بتوانند بهطور خودکار زمانی که متن و روایت در یک راستا قرار ندارند، تشخیص دهند و تمرکز را از یک حالت به حالت دیگر تغییر دهند. آنها همچنین می خواهند چارچوب خود را به داده های صوتی بسط دهند، زیرا معمولاً همبستگی های قوی بین اعمال و صداهایی که اشیا تولید می کنند وجود دارد.
“تحقیقات هوش مصنوعی پیشرفت باورنکردنی در جهت ایجاد مدل هایی مانند ChatGPT داشته است که تصاویر را درک می کند. اما پیشرفت ما روی درک ویدیو بسیار عقب است. کیت سانکو، استاد دپارتمان علوم کامپیوتر دانشگاه بوستون که با این کار درگیر نبود، میگوید این کار نشاندهنده یک گام مهم رو به جلو در این مسیر است.
این تحقیق تا حدی توسط آزمایشگاه هوش مصنوعی MIT-IBM Watson AI تامین می شود.
منبع: https://news.mit.edu/1403/ai-based-method-can-find-specific-video-action-0529
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم
زمان انتشار: 1403-05-29 20:02:05