سرور مجازی NVMe

ابزار AI تصاویر با کیفیت بالا را سریعتر از رویکردهای پیشرفته تولید می کند

توسط مهران در فروردین 1, 1404

ابزار AI تصاویر با کیفیت بالا را سریعتر از رویکردهای پیشرفته تولید می کند

زمان لازم برای مطالعه: 5 دقیقه

توانایی تولید سریع تصاویر با کیفیت بالا برای تولید محیط های شبیه سازی شده واقع بینانه که می توانند برای آموزش اتومبیل های خودران برای جلوگیری از خطرات غیرقابل پیش بینی استفاده شوند ، بسیار مهم است. روی خیابان های واقعی

اما تکنیک های هوش مصنوعی تولیدی که به طور فزاینده ای برای تولید چنین تصاویری مورد استفاده قرار می گیرند ، دارای اشکالاتی هستند. یک نوع محبوب از مدل ، به نام یک مدل انتشار ، می تواند تصاویر خیره کننده واقع بینانه ایجاد کند اما برای بسیاری از برنامه ها بسیار کند و از نظر محاسباتی فشرده است. از طرف دیگر ، مدل های خودکار که LLM ها مانند Chatgpt بسیار سریعتر هستند ، اما تصاویر با کیفیت فقیرتر تولید می کنند که اغلب با خطا روبرو می شوند.

محققان MIT و NVIDIA رویکرد جدیدی را توسعه دادند که بهترین ها را از هر دو روش جمع می کند. ابزار تولید تصویر ترکیبی آنها از یک مدل خودکار برای ضبط سریع تصویر بزرگ و سپس یک مدل انتشار کوچک برای اصلاح جزئیات تصویر استفاده می کند.

ابزار آنها ، معروف به هارت (کوتاه برای ترانسفورماتور اتورگید ترکیبی) ، می تواند تصاویری ایجاد کند که مطابقت داشته باشد یا از کیفیت مدل های انتشار پیشرفته برخوردار باشد ، اما این کار را تقریباً نه بار سریعتر انجام دهید.

نسل process منابع محاسباتی کمتری نسبت به مدلهای انتشار معمولی مصرف می کند ، و این امکان را برای هارت فراهم می کند تا محلی را اجرا کند روی یک لپ تاپ تجاری یا تلفن هوشمند. یک کاربر فقط برای تولید یک تصویر باید یک زبان طبیعی را وارد رابط هارت کند.

هارت می تواند طیف گسترده ای از برنامه ها را داشته باشد ، مانند کمک به محققان برای آموزش روبات ها برای انجام کارهای پیچیده در دنیای واقعی و کمک به طراحان در تولید صحنه های جالب برای بازی های ویدیویی.

“اگر شما یک منظره را نقاشی می کنید ، و فقط یک بار کل بوم را نقاشی می کنید ، ممکن است خیلی خوب به نظر نرسد. روی هارت

وی به نویسنده همکار ، یچنگ وو ، دانشجوی کارشناسی ارشد دانشگاه Tsinghua پیوست. نویسنده ارشد سونگ هان ، استادیار گروه MIT مهندسی برق و علوم کامپیوتر (EEC) ، عضو آزمایشگاه MIT-IBM Watson AI و یک دانشمند برجسته Nvidia. و همچنین دیگران در MIT ، دانشگاه Tsinghua و Nvidia. این تحقیق در کنفرانس بین المللی ارائه خواهد شد روی یادگیری بازنمایی.

بهترین های هر دو جهان

مدل های انتشار محبوب ، مانند انتشار پایدار و DALL-E ، تصاویر بسیار مفصلی را تولید می کنند. این مدل ها از طریق تکراری تصاویر ایجاد می کنند process جایی که آنها مقداری سر و صدای تصادفی را پیش بینی می کنند روی هر پیکسل ، نویز را کم کنید ، سپس تکرار کنید process چندین بار پیش بینی و “de-noising” تا زمانی که آنها تصویری جدید ایجاد کنند که کاملاً عاری از سر و صدا باشد.

پیشنهاد می‌کنیم بخوانید: آینده خلاقانه هوش مصنوعی مولد

از آنجا process آهسته و از نظر محاسباتی گران است. اما از آنجا که این مدل چندین فرصت برای تصحیح جزئیات آن را دارد که اشتباه کرده است ، تصاویر با کیفیت بالا هستند.

مدل های خودکار ، که معمولاً برای پیش بینی متن استفاده می شود ، می توانند با پیش بینی تکه های یک تصویر به طور متوالی ، چند پیکسل در یک زمان ، تصاویر ایجاد کنند. آنها نمی توانند به عقب برگردند و اشتباهات خود را اصلاح کنند ، اما پیش بینی پی در پی process بسیار سریعتر از انتشار است.

این مدل ها از بازنمایی هایی که به عنوان نشانه ها شناخته می شوند برای پیش بینی استفاده می کنند. یک مدل خودکار از یک AutoEncoder برای فشرده سازی پیکسل های تصویر خام به نشانه های گسسته و همچنین بازسازی تصویر از نشانه های پیش بینی شده استفاده می کند. در حالی که این سرعت مدل را افزایش می دهد ، از دست دادن اطلاعاتی که در طول فشرده سازی رخ می دهد باعث ایجاد خطاها می شود وقتی مدل تصویر جدیدی ایجاد می کند.

محققان با استفاده از هارت ، یک رویکرد ترکیبی را ایجاد کردند که از یک مدل خودکار برای پیش بینی نشانه های تصویر فشرده و گسسته استفاده می کند ، سپس یک مدل انتشار کوچک برای پیش بینی نشانه های باقیمانده. نشانه های باقیمانده با ضبط جزئیات باقی مانده توسط نشانه های گسسته ، از دست دادن اطلاعات مدل جبران می شوند.

تانگ می گوید: “ما می توانیم از نظر کیفیت بازسازی به یک افزایش چشمگیر برسیم. نشانه های باقیمانده ما جزئیات فرکانس بالا مانند لبه های یک شیء یا مو ، چشم یا دهان شخص را می آموزند. این مکانهایی هستند که نشانه های گسسته می توانند اشتباه کنند.”

از آنجا که مدل انتشار فقط جزئیات باقیمانده را پس از انجام مدل اتورگرایی کار خود پیش بینی می کند ، می تواند به جای 30 معمول یا بیشتر یک مدل انتشار استاندارد ، کار را در هشت مرحله انجام دهد. این حداقل سربار از مدل انتشار اضافی به هارت اجازه می دهد تا از مزیت سرعت مدل خودجوش استفاده کند و در عین حال توانایی آن در تولید جزئیات پیچیده تصویر را به طور قابل توجهی افزایش دهد.

وی می افزاید: “مدل انتشار کار ساده تری دارد که منجر به کارآیی بیشتر می شود.”

پیشنهاد می‌کنیم بخوانید: "آنها می توانند خود را در حال شکل دادن به دنیایی که در آن زندگی می کنند ببینند"

بهتر از مدل های بزرگتر

در طول توسعه هارت ، محققان در ادغام مؤثر مدل انتشار برای تقویت مدل خودجوش با چالش هایی روبرو شدند. آنها دریافتند که ترکیب مدل انتشار در مراحل اولیه اتورژیک process منجر به تجمع خطاها شد. در عوض ، طراحی نهایی آنها در استفاده از مدل انتشار برای پیش بینی تنها نشانه های باقیمانده به عنوان مرحله نهایی به طور قابل توجهی کیفیت نسل را بهبود می بخشد.

روش آنها ، که از ترکیبی از یک مدل ترانسفورماتور خودکار با 700 میلیون پارامتر و یک مدل انتشار سبک با 37 میلیون پارامتر استفاده می کند ، می تواند تصاویری با کیفیت مشابه با مدل های ایجاد شده با یک مدل انتشار با 2 میلیارد پارامتر ایجاد کند ، اما این کار را حدود نه برابر سریعتر انجام می دهد. از حدود 31 درصد محاسبه کمتر از مدل های پیشرفته استفاده می کند.

علاوه بر این ، از آنجا که هارت از یک مدل خودجوش برای انجام بخش عمده ای از کار استفاده می کند-همان نوع مدل که LLMS را قدرت می دهد-برای ادغام با کلاس جدید مدل های تولیدی یکپارچه به زبان سازگار است. در آینده ، می توان با یک مدل مولد یکپارچه دید به زبان تعامل داشت ، شاید با درخواست آن برای نشان دادن مراحل میانی مورد نیاز برای جمع آوری یک قطعه مبلمان.

وی می گوید: “LLM ها رابط خوبی برای انواع مدل ها هستند ، مانند مدل ها و مدل های چند مدلی که می توانند استدلال کنند. این راهی برای سوق دادن هوش به یک مرز جدید است. یک مدل کارآمد نسل تصویر ، امکانات زیادی را باز می کند.”

در آینده ، محققان می خواهند از این مسیر پایین بیایند و مدلهای بینایی زبان را بسازند روی بالای معماری هارت. از آنجا که هارت مقیاس پذیر و قابل تعمیم در چندین روش است ، آنها همچنین می خواهند آن را برای کارهای تولید ویدیویی و پیش بینی صوتی اعمال کنند.

این تحقیق تا حدودی توسط آزمایشگاه MIT-IBM Watson AI ، The MIT و Amazon Science Hub ، برنامه سخت افزار MIT AI و بنیاد ملی علوم ایالات متحده تأمین شد. زیرساخت های GPU برای آموزش این مدل توسط NVIDIA اهدا شد.

منبع: https://news.mit.edu/1404/ai-tool-generates-high-quality-images-faster-0321

برای نگارش بخشهایی از این متن ممکن است از ترجمه ماشینی یا هوش مصنوعی GPT استفاده شده باشد
لطفا در صورت وجود مشکل در متن یا مفهوم نبودن توضیحات، از طریق دکمه گزارش نوشتار یا درج نظر روی این مطلب ما را از جزییات مشکل مشاهده شده مطلع کنید تا به آن رسیدگی کنیم

زمان انتشار: 1404-03-21 08:19:11

امتیاز شما به این مطلب