سرور مجازی NVMe

ترکیب پیش‌بینی نشانه بعدی و انتشار ویدئو در بینایی کامپیوتر و روباتیک

توسط مهران در مهر 26, 1403

ترکیب پیش‌بینی نشانه بعدی و انتشار ویدئو در بینایی کامپیوتر و روباتیک

زمان لازم برای مطالعه: 2 دقیقه

در AI zeitgeist فعلی، محبوبیت مدل‌های توالی به دلیل توانایی آن‌ها در تجزیه و تحلیل داده‌ها و پیش‌بینی کارهای بعدی افزایش یافته است. به عنوان مثال، شما احتمالاً از مدل‌های پیش‌بینی نشانه بعدی مانند ChatGPT استفاده کرده‌اید، که هر کلمه (ژتون) را در یک دنباله پیش‌بینی می‌کند تا پاسخ‌هایی را برای پرسش‌های کاربران ایجاد کند. همچنین مدل‌های انتشار کامل دنباله‌ای مانند Sora وجود دارد که با حذف متوالی یک توالی ویدیویی، کلمات را به تصاویر خیره‌کننده و واقعی تبدیل می‌کند.

محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) تغییر ساده‌ای را در طرح آموزش انتشار پیشنهاد کرده‌اند که این توالی نویز کردن را به طور قابل‌توجهی انعطاف‌پذیرتر می‌کند.

هنگامی که در زمینه‌هایی مانند بینایی کامپیوتر و روباتیک اعمال می‌شود، مدل‌های انتشار توکن بعدی و توالی کامل دارای قابلیت‌های مبادله‌ای هستند. مدل‌های توکن بعدی می‌توانند توالی‌هایی را که طول آن‌ها متفاوت است، بیرون بیاورند. با این حال، آنها این نسل ها را می سازند در حالی که از وضعیت های مطلوب در آینده دور بی خبر هستند – مانند هدایت تولید توالی آن به سمت یک هدف خاص در فاصله 10 توکن – و بنابراین به مکانیسم های اضافی برای برنامه ریزی بلند مدت (بلند مدت) نیاز دارند. مدل‌های انتشار می‌توانند چنین نمونه‌برداری‌های مشروط در آینده را انجام دهند، اما فاقد توانایی مدل‌های نشانه بعدی برای تولید دنباله‌های با طول متغیر هستند.

محققان از CSAIL می‌خواهند نقاط قوت هر دو مدل را با هم ترکیب کنند، بنابراین یک تکنیک آموزش مدل دنباله‌ای به نام «اجبار انتشار» ایجاد کردند. این نام از “اجبار معلم” گرفته شده است، یک طرح آموزشی مرسوم که تولید توالی کامل را به مراحل کوچکتر و آسان تر نسل بعدی تقسیم می کند (مثل یک معلم خوب که یک مفهوم پیچیده را ساده می کند).

پیشنهاد می‌کنیم بخوانید: رئیس جمهور سالی کورنبلوت و مدیر عامل OpenAI سم آلتمن در مورد آینده هوش مصنوعی صحبت می کنند

منبع: https://news.mit.edu/1403/combining-next-token-prediction-video-diffusion-computer-vision-robotics-1016

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1403-10-17 16:08:18

امتیاز شما به این مطلب