از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
ترکیب پیشبینی نشانه بعدی و انتشار ویدئو در بینایی کامپیوتر و روباتیک
در AI zeitgeist فعلی، محبوبیت مدلهای توالی به دلیل توانایی آنها در تجزیه و تحلیل دادهها و پیشبینی کارهای بعدی افزایش یافته است. به عنوان مثال، شما احتمالاً از مدلهای پیشبینی نشانه بعدی مانند ChatGPT استفاده کردهاید، که هر کلمه (ژتون) را در یک دنباله پیشبینی میکند تا پاسخهایی را برای پرسشهای کاربران ایجاد کند. همچنین مدلهای انتشار کامل دنبالهای مانند Sora وجود دارد که با حذف متوالی یک توالی ویدیویی، کلمات را به تصاویر خیرهکننده و واقعی تبدیل میکند.
محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) تغییر سادهای را در طرح آموزش انتشار پیشنهاد کردهاند که این توالی نویز کردن را به طور قابلتوجهی انعطافپذیرتر میکند.
هنگامی که در زمینههایی مانند بینایی کامپیوتر و روباتیک اعمال میشود، مدلهای انتشار توکن بعدی و توالی کامل دارای قابلیتهای مبادلهای هستند. مدلهای توکن بعدی میتوانند توالیهایی را که طول آنها متفاوت است، بیرون بیاورند. با این حال، آنها این نسل ها را می سازند در حالی که از وضعیت های مطلوب در آینده دور بی خبر هستند – مانند هدایت تولید توالی آن به سمت یک هدف خاص در فاصله 10 توکن – و بنابراین به مکانیسم های اضافی برای برنامه ریزی بلند مدت (بلند مدت) نیاز دارند. مدلهای انتشار میتوانند چنین نمونهبرداریهای مشروط در آینده را انجام دهند، اما فاقد توانایی مدلهای نشانه بعدی برای تولید دنبالههای با طول متغیر هستند.
محققان از CSAIL میخواهند نقاط قوت هر دو مدل را با هم ترکیب کنند، بنابراین یک تکنیک آموزش مدل دنبالهای به نام «اجبار انتشار» ایجاد کردند. این نام از “اجبار معلم” گرفته شده است، یک طرح آموزشی مرسوم که تولید توالی کامل را به مراحل کوچکتر و آسان تر نسل بعدی تقسیم می کند (مثل یک معلم خوب که یک مفهوم پیچیده را ساده می کند).
منبع: https://news.mit.edu/1403/combining-next-token-prediction-video-diffusion-computer-vision-robotics-1016
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم
زمان انتشار: 1403-10-17 16:08:18