سرور مجازی NVMe

به دنبال یک اقدام خاص در یک ویدیو هستید؟ این روش مبتنی بر هوش مصنوعی می تواند آن را برای شما پیدا کند

توسط مهران در خرداد 9, 1403

به دنبال یک اقدام خاص در یک ویدیو هستید؟ این روش مبتنی بر هوش مصنوعی می تواند آن را برای شما پیدا کند

زمان لازم برای مطالعه: 5 دقیقه

اینترنت مملو از ویدیوهای آموزشی است که می تواند به بینندگان کنجکاو همه چیز را از پختن پنکیک عالی گرفته تا انجام یک مانور حیاتی Heimlich را آموزش دهد.

اما تعیین دقیق زمان و مکان یک عمل خاص در یک ویدیوی طولانی می تواند خسته کننده باشد. برای ساده کردن process، دانشمندان در تلاش هستند تا انجام این وظیفه را به رایانه ها آموزش دهند. در حالت ایده‌آل، یک کاربر فقط می‌تواند اقدامی را که به دنبال آن است توصیف کند و یک مدل هوش مصنوعی به مکان خود در ویدیو پرش کند.

با این حال، آموزش مدل‌های یادگیری ماشینی برای انجام این کار، معمولاً به مقدار زیادی داده‌های ویدیویی گران‌قیمت نیاز دارد که به سختی به صورت دستی برچسب‌گذاری شده‌اند.

یک رویکرد جدید و کارآمدتر از سوی محققان MIT و آزمایشگاه هوش مصنوعی واتسون MIT-IBM، مدلی را برای انجام این کار، معروف به زمین‌گذاری مکانی-زمانی، تنها با استفاده از ویدئوها و رونوشت‌های تولید شده به‌طور خودکار آن‌ها آموزش می‌دهد.

محققان مدلی را برای درک یک ویدیوی بدون برچسب به دو روش متمایز آموزش می دهند: با مشاهده جزئیات کوچک برای یافتن محل قرارگیری اشیاء (اطلاعات مکانی) و نگاه به تصویر بزرگتر برای درک زمان وقوع آن (اطلاعات زمانی).

در مقایسه با سایر رویکردهای هوش مصنوعی، روش آنها اقدامات در ویدیوهای طولانی تر با فعالیت های متعدد را با دقت بیشتری شناسایی می کند. جالب اینجاست که آنها متوجه شدند که به طور همزمان تمرین می کنند روی اطلاعات مکانی و زمانی یک مدل را در شناسایی هر یک به صورت جداگانه بهتر می کند.

علاوه بر ساده‌سازی فرآیندهای آموزش آنلاین و آموزش مجازی، این تکنیک می‌تواند در تنظیمات مراقبت‌های بهداشتی نیز با یافتن سریع لحظات کلیدی در ویدیوهای روش‌های تشخیصی مفید باشد.

ما چالش تلاش برای رمزگذاری اطلاعات مکانی و زمانی را به یکباره از هم جدا می‌کنیم و در عوض مانند دو کارشناس در مورد آن فکر می‌کنیم. روی خود آنها، که معلوم می شود راه صریح تری برای رمزگذاری اطلاعات است. برایان چن، نویسنده اصلی مقاله می گوید مدل ما که این دو شاخه مجزا را ترکیب می کند، به بهترین عملکرد منجر می شود. روی این تکنیک

چن، فارغ التحصیل سال 1402 از دانشگاه کلمبیا که این تحقیق را در حالی که یک دانشجوی مهمان در آزمایشگاه هوش مصنوعی MIT-IBM Watson AI انجام داد، به آن ملحق شد. روی مقاله جیمز گلس، دانشمند تحقیقاتی ارشد، عضو آزمایشگاه هوش مصنوعی واتسون MIT-IBM، و رئیس گروه سیستم های زبان گفتاری در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL). هیلد کوئنه، یکی از اعضای آزمایشگاه هوش مصنوعی واتسون MIT-IBM که همچنین به دانشگاه گوته فرانکفورت وابسته است. و دیگران در MIT، دانشگاه گوته، آزمایشگاه هوش مصنوعی MIT-IBM Watson و Quality Match GmbH. این تحقیق در کنفرانس ارائه خواهد شد روی بینایی کامپیوتری و تشخیص الگو.

یادگیری جهانی و محلی

محققان معمولاً با استفاده از ویدئوهایی که در آن انسان‌ها زمان شروع و پایان کارهای خاص را شرح داده‌اند، به مدل‌ها آموزش می‌دهند تا زمین‌بندی مکانی-زمانی را انجام دهند.

پیشنهاد می‌کنیم بخوانید: 3 سوال: آنچه باید در مورد دیپ فیک های صوتی بدانید

نه تنها تولید این داده ها پرهزینه است، بلکه تشخیص اینکه دقیقاً چه چیزی را باید برچسب گذاری کنند، برای انسان دشوار است. اگر عمل «پختن یک پنکیک» باشد، آیا زمانی که سرآشپز شروع به مخلوط کردن خمیر می‌کند یا وقتی آن را در تابه می‌ریزد، این عمل شروع می‌شود؟

این بار، کار ممکن است در مورد پخت و پز باشد، اما دفعه بعد، ممکن است در مورد تعمیر ماشین باشد. دامنه های مختلفی برای افراد وجود دارد که می توانند حاشیه نویسی کنند. اما اگر بتوانیم همه چیز را بدون برچسب یاد بگیریم، راه حل کلی تری است.

برای رویکرد خود، محققان از ویدیوهای آموزشی بدون برچسب و متن متنی همراه از وب سایتی مانند YouTube به عنوان داده آموزشی استفاده می کنند. اینها نیاز به آماده سازی خاصی ندارند.

آنها آموزش را تقسیم کردند process به دو قطعه برای اولین بار، آنها به یک مدل یادگیری ماشینی آموزش می دهند که به کل ویدیو نگاه کند تا بفهمد در زمان های خاص چه اقداماتی اتفاق می افتد. این اطلاعات سطح بالا، نمایش جهانی نامیده می شود.

برای دوم، آنها به مدل یاد می دهند که تمرکز کند روی یک منطقه خاص در بخش‌هایی از ویدیو که در آن اقدام در حال انجام است. به عنوان مثال، در یک آشپزخانه بزرگ، مدل ممکن است فقط نیاز به تمرکز داشته باشد روی قاشق چوبی که یک سرآشپز برای مخلوط کردن خمیر پنکیک استفاده می کند، نه کل پیشخوان. به این اطلاعات ریز، یک نمایش محلی می گویند.

محققان یک جزء اضافی را در چارچوب خود گنجانده اند تا ناهماهنگی هایی را که بین روایت و ویدیو رخ می دهد، کاهش دهند. شاید سرآشپز ابتدا در مورد پختن پنکیک صحبت کرده و بعداً این عمل را انجام دهد.

برای توسعه یک راه حل واقعی تر، محققان تمرکز کردند روی ویدیوهای قطع نشده چند دقیقه ای در مقابل، بیشتر تکنیک‌های هوش مصنوعی با استفاده از کلیپ‌های چند ثانیه‌ای تمرین می‌کنند که شخصی آن‌ها را برای نمایش تنها یک عمل کوتاه کرده است.

یک معیار جدید

اما هنگامی که آنها به ارزیابی رویکرد خود رسیدند، محققان نتوانستند معیار موثری برای آزمایش یک مدل پیدا کنند. روی این ویدیوهای بلندتر و برش نخورده – بنابراین آنها یکی را ایجاد کردند.

برای ساخت مجموعه داده معیار خود، محققان یک تکنیک حاشیه نویسی جدید ابداع کردند که برای شناسایی اقدامات چند مرحله ای به خوبی کار می کند. آنها از کاربران خواستند که محل تلاقی اشیاء را علامت گذاری کنند، مانند نقطه ای که لبه چاقو گوجه فرنگی را برش می دهد، به جای کشیدن یک جعبه در اطراف اشیاء مهم.

“این واضح تر تعریف شده و حاشیه نویسی را سرعت می بخشد processچن می گوید، که کار و هزینه انسانی را کاهش می دهد.

به علاوه، داشتن چند نفر حاشیه نویسی نقطه ای را انجام می دهند روی همین ویدیو می‌تواند اقداماتی را که در طول زمان رخ می‌دهند، مانند جریان شیر ریخته شده، بهتر به تصویر بکشد. همه حاشیه نویس ها دقیقاً همان نقطه را در جریان مایع علامت گذاری نمی کنند.

پیشنهاد می‌کنیم بخوانید: ایجاد زبان های برنامه نویسی سفارشی برای سیستم های هوش مصنوعی بصری کارآمد

هنگامی که آنها از این معیار برای آزمایش رویکرد خود استفاده کردند، محققان دریافتند که در تعیین دقیق اقدامات نسبت به سایر تکنیک های هوش مصنوعی دقیق تر است.

روش آنها نیز در تمرکز بهتر بود روی تعاملات انسان و شی به‌عنوان مثال، اگر عمل «ارائه یک پنکیک» باشد، بسیاری از رویکردهای دیگر ممکن است فقط تمرکز کنند روی اشیاء کلیدی، مانند یک پشته پنکیک نشسته روی یک شمارنده. در عوض، روش آنها متمرکز است روی لحظه واقعی زمانی که سرآشپز یک پنکیک را در بشقاب می اندازد.

رویکردهای موجود به شدت متکی هستند روی داده های برچسب گذاری شده از انسان، و بنابراین بسیار مقیاس پذیر نیستند. این اثر با ارائه روش‌های جدید برای بومی‌سازی رویدادها در مکان و زمان با استفاده از گفتاری که به طور طبیعی در درون آنها رخ می‌دهد، گامی در جهت رفع این مشکل برمی‌دارد. این نوع داده در همه جا وجود دارد، بنابراین در تئوری یک سیگنال یادگیری قدرتمند خواهد بود. با این حال، اغلب به چیزی که هست کاملاً بی ربط است روی صفحه نمایش، استفاده از آن را در سیستم های یادگیری ماشینی سخت می کند. اندرو اونز، استادیار مهندسی برق و علوم کامپیوتر در دانشگاه میشیگان می گوید: این کار به پرداختن به این موضوع کمک می کند و ایجاد سیستم هایی را برای محققان آسان تر می کند که در آینده از این شکل از داده های چندوجهی استفاده کنند. این کار.

در مرحله بعد، محققان قصد دارند رویکرد خود را ارتقا دهند تا مدل‌ها بتوانند به‌طور خودکار زمانی که متن و روایت در یک راستا قرار ندارند، تشخیص دهند و تمرکز را از یک حالت به حالت دیگر تغییر دهند. آنها همچنین می خواهند چارچوب خود را به داده های صوتی بسط دهند، زیرا معمولاً همبستگی های قوی بین اعمال و صداهایی که اشیا تولید می کنند وجود دارد.

“تحقیقات هوش مصنوعی پیشرفت باورنکردنی در جهت ایجاد مدل هایی مانند ChatGPT داشته است که تصاویر را درک می کند. اما پیشرفت ما روی درک ویدیو بسیار عقب است. کیت سانکو، استاد دپارتمان علوم کامپیوتر دانشگاه بوستون که با این کار درگیر نبود، می‌گوید این کار نشان‌دهنده یک گام مهم رو به جلو در این مسیر است.

این تحقیق تا حدی توسط آزمایشگاه هوش مصنوعی MIT-IBM Watson AI تامین می شود.

منبع: https://news.mit.edu/1403/ai-based-method-can-find-specific-video-action-0529

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-05-29 20:02:05

امتیاز شما به این مطلب