از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
نحوه استفاده از مدل Segment Anything (SAM) برای ایجاد ماسک
سرفصلهای مطلب
سلام! بنابراین، آیا میدانید که این همهمهای درباره آیندهنگر و بدون راننده بودن خلبان خودکار تسلا وجود دارد؟ تا به حال به این فکر کرده اید که واقعاً چگونه جادوی خود را انجام می دهد؟ خوب، اجازه دهید به شما بگویم – همه چیز مربوط به تقسیم بندی تصویر و تشخیص اشیا است.
تقسیم بندی تصویر چیست؟
تقسیمبندی تصویر، که اساساً یک تصویر را به بخشهای مختلف تقسیم میکند، به سیستم کمک میکند تا موارد را تشخیص دهد. محل قرارگیری انسان ها، ماشین های دیگر و موانع در جاده را مشخص می کند. این فناوری است که مطمئن میشود آن ماشینهای خودران میتوانند با خیال راحت تردد کنند. باحال، درسته؟ 🚗
در طول دهه گذشته، Computer Vision پیشرفت های زیادی داشته است، به ویژه در ساخت روش های تقسیم بندی و تشخیص اشیا بسیار پیچیده.
این پیشرفتها کاربردهای متنوعی پیدا کردهاند، مانند تشخیص تومورها و بیماریها در تصاویر پزشکی، مراقبت از محصولات کشاورزی و حتی هدایت روباتها در مسیریابی. این فناوری واقعاً در حال گسترش است و تأثیر قابل توجهی در زمینه های مختلف دارد.
چالش اصلی در بدست آوردن و آماده سازی داده ها نهفته است. ایجاد یک مجموعه داده تقسیمبندی تصویر نیازمند حاشیهنویسی انبوهی از تصاویر برای تعریف برچسبها است، که کار بزرگی است. این به منابع زیادی نیاز دارد.
بنابراین، زمانی که بازی تغییر کرد مدل هر چیزی (SAM) وارد صحنه شد SAM انقلابی در این زمینه ایجاد کرد و هر کسی را قادر ساخت تا بدون تکیه بر دادههای برچسبگذاری شده، ماسکهای تقسیمبندی برای دادههای خود ایجاد کند.
در این مقاله، من شما را از طریق درک SAM، عملکرد آن و نحوه استفاده از آن برای ساخت ماسک راهنمایی خواهم کرد. بنابراین، با فنجان قهوه خود آماده شوید زیرا ما در حال شیرجه هستیم! ☕
پیش نیازها:
پیش نیازهای این مقاله شامل درک اولیه از برنامه نویسی پایتون و دانش اساسی از فراگیری ماشین.
علاوه بر این، آشنایی با مفاهیم تقسیمبندی تصویر، بینایی کامپیوتر و چالشهای حاشیهنویسی دادهها نیز مفید خواهد بود.
مدل Segment Anything چیست؟
SAM یک مدل زبان بزرگ است که توسط تیم تحقیقاتی فیس بوک (Meta AI) توسعه یافته است. این مدل بر روی یک مجموعه داده عظیم آموزش داده شد 1.1 میلیارد ماسک تقسیم بندی، مجموعه داده SA-1B. این مدل میتواند به خوبی به دادههای دیده نشده تعمیم دهد زیرا بر روی یک مجموعه داده بسیار متنوع آموزش داده شده و واریانس پایینی دارد.
SAM را می توان برای بخش بندی هر تصویر و ایجاد ماسک بدون هیچ گونه داده برچسب دار استفاده کرد. این یک پیشرفت بزرگ است، زیرا قبل از SAM هیچ تقسیم بندی کاملاً خودکاری امکان پذیر نبود.
چه چیزی SAM را منحصر به فرد می کند؟ این اولین در نوع خود است، تقسیم بندی سریع مدل. دستورات به شما این امکان را می دهند که از طریق متن و اقدامات تعاملی، مدل را در مورد خروجی مورد نظر خود راهنمایی کنید. شما میتوانید به روشهای مختلفی به SAM دستور دهید: نقاط، جعبههای مرزی، متنها و حتی ماسکهای پایه.
SAM چگونه کار می کند؟
SAM از معماری مبتنی بر ترانسفورماتور مانند اکثر مدلهای زبان بزرگ استفاده میکند. بیایید به جریان داده ها از طریق اجزای مختلف SAM نگاه کنیم.
رمزگذار تصویر: هنگامی که تصویری را به SAM ارائه می دهید، ابتدا به Image Encoder ارسال می شود. مطابق با نام خود، این مؤلفه تصویر را در بردارها رمزگذاری می کند. این بردارها نمایانگر ویژگیهای سطح پایین (لبهها، خطوط کلی) و سطح بالا مانند اشکال شی و بافت استخراجشده از تصویر هستند. رمزگذار در اینجا یک است Vision Transformer (ViT) که مزایای زیادی نسبت به CNN های سنتی دارد.
رمزگذار اعلان: ورودی سریعی که کاربر می دهد توسط رمزگذار سریع به جاسازی تبدیل می شود. SAM از تعبیههای موقعیتی برای نقاط، اعلانهای جعبه مرزی و رمزگذارهای متنی برای پیامهای متنی استفاده میکند.
رسیور ماسک: سپس، SAM ویژگیهای تصویر استخراجشده را نقشهبرداری میکند و کدگذاریهای فوری را برای تولید ماسک، که خروجی ما است، تهیه میکند. SAM 3 ماسک تقسیمبندی شده برای هر درخواست ورودی ایجاد میکند و انتخابهایی را در اختیار کاربران قرار میدهد.
چرا از SAM استفاده کنیم؟
با SAM، میتوانید از تنظیمات گرانقیمتی که معمولاً برای هوش مصنوعی نیاز است صرفنظر کنید و همچنان نتایج سریعی دریافت کنید. با انواع دادهها، مانند تصاویر پزشکی یا ماهوارهای، به خوبی کار میکند و دقیقاً در نرمافزاری که قبلاً برای کارهای تشخیص سریع استفاده میکنید، قرار میگیرد.
شما همچنین ابزارهایی را دریافت میکنید که برای مشاغل خاصی مانند تقسیمبندی تصویر طراحی شدهاند، و تعامل با آن آسان است، چه در حال آموزش آن باشید و چه از آن بخواهید که دادهها را تجزیه و تحلیل کند. بهعلاوه، سریعتر از سیستمهای قدیمیتر مانند CNN است و در زمان و هزینه شما صرفهجویی میکند.
نحوه نصب و راه اندازی SAM
اکنون که می دانید SAM چگونه کار می کند، اجازه دهید نحوه نصب و راه اندازی آن را به شما نشان دهم. اولین قدم این است که با دستور زیر بسته را در نوت بوک Jupyter یا Google Colab خود نصب کنید:
pip install 'git+https://github.com/facebookresearch/segment-anything.git'
/content Collecting git+https://github.com/facebookresearch/segment-anything.git Cloning https://github.com/facebookresearch/segment-anything.git to /tmp/pip-req-build-xzlt_n7r Running command git clone --filter=blob:none --quiet https://github.com/facebookresearch/segment-anything.git /tmp/pip-req-build-xzlt_n7r Resolved https://github.com/facebookresearch/segment-anything.git to commit 6fdee8f2727f4506cfbbe553e23b895e27956588 Preparing metadata (setup.py) ... done
مرحله بعدی دانلود وزنه های از پیش آموزش دیده مدل SAM است که می خواهید استفاده کنید.
شما می توانید از بین سه گزینه وزن ایست بازرسی انتخاب کنید: ViT-B (91M)، ViT-L (308M) و ViT-H (پارامترهای 636M).
چگونه مناسب را انتخاب می کنید؟ هر چه تعداد پارامترها بیشتر باشد، زمان لازم برای استنتاج، یعنی تولید ماسک بیشتر می شود. اگر منابع GPU کم و استنتاج سریع دارید، به سراغ ViT-B بروید. در غیر این صورت، ViT-H را انتخاب کنید.
برای تنظیم مسیر چک پوینت مدل دستورات زیر را دنبال کنید:
!wget -q https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h_4b8939.pth
CHECKPOINT_PATH='/content/weights/sam_vit_h_4b8939.pth'
import torch
DEVICE = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
MODEL_TYPE = "vit_h"
وزنه های مدل آماده است! اکنون، روشهای مختلفی را به شما نشان میدهم که از طریق آن میتوانید در بخشهای آینده، دستورات و ماسکهایی ایجاد کنید. 🚀
چگونه SAM می تواند ماسک ها را به صورت خودکار تولید کند
SAM می تواند به طور خودکار کل تصویر ورودی را به بخش های مجزا و بدون درخواست خاصی تقسیم کند. برای این کار می توانید از SamAutomaticMaskGenerator
سودمندی
برای وارد کردن و مقداردهی اولیه آن با نوع مدل و مسیر چک پوینت، دستورات زیر را دنبال کنید.
from segment_anything import sam_model_registry, SamAutomaticMaskGenerator, SamPredictor
sam = sam_model_registry[MODEL_TYPE](checkpoint=CHECKPOINT_PATH).to(device=DEVICE)
mask_generator = SamAutomaticMaskGenerator(sam)
به عنوان مثال، من تصویری از سگ ها را در دفترچه خود آپلود کرده ام. این تصویر ورودی ما خواهد بود که باید به فرمت پیکسلی RGB (قرمز-سبز-آبی) تبدیل شود تا ورودی مدل باشد.
می توانید این کار را با استفاده از بسته OpenCV Python انجام دهید و سپس از آن استفاده کنید generate()
عملکرد ایجاد یک ماسک، همانطور که در زیر نشان داده شده است:
# Import opencv package
import cv2
# Give the path of your image
IMAGE_PATH= '/content/dog.png'
# Read the image from the path
image= cv2.imread(IMAGE_PATH)
# Convert to RGB format
image_rgb = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
# Generate segmentation mask
output_mask = mask_generator.generate(image_rgb)
print(output_mask)
خروجی تولید شده یک فرهنگ لغت با مقادیر اصلی زیر است:
Segmentation:
آرایه ای که شکل ماسک داردarea:
یک عدد صحیح که مساحت ماسک را بر حسب پیکسل ذخیره می کندbbox:
مختصات جعبه مرزی [xywh]Predicted_iou:
IOU یک امتیاز ارزیابی برای تقسیم بندی است
پس چگونه ماسک خروجی خود را تجسم کنیم؟
خوب، این یک تابع ساده پایتون است که فرهنگ لغت تولید شده توسط SAM را به عنوان خروجی می گیرد و ماسک های تقسیم بندی را با مقادیر و مختصات شکل ماسک رسم می کند.
# Function that inputs the output and plots image and mask
def show_output(result_dict,axes=None):
if axes:
ax = axes
else:
ax = plt.gca()
ax.set_autoscale_on(False)
sorted_result = sorted(result_dict, key=(lambda x: x['area']), reverse=True)
# Plot for each segment area
for val in sorted_result:
mask = val['segmentation']
img = np.ones((mask.shape[0], mask.shape[1], 3))
color_mask = np.random.random((1, 3)).tolist()[0]
for i in range(3):
img[:,:,i] = color_mask[i]
ax.imshow(np.dstack((img, mask*0.5)))
بیایید از این تابع برای رسم تصویر ورودی خام و ماسک قطعهبندی شده خود استفاده کنیم:
_,axes = plt.subplots(1,2, figsize=(16,16))
axes[0].imshow(image_rgb)
show_output(sam_result, axes[1])
همانطور که می بینید، این مدل با استفاده از روش صفر شات در یک حرکت تک تک اشیاء در تصویر را قطعه بندی کرده است! 🌟
نحوه استفاده از SAM با دستورات Bounding Box
گاهی اوقات، ممکن است بخواهیم تنها بخش خاصی از یک تصویر را بخش بندی کنیم. برای رسیدن به این هدف، جعبههای مرزبندی ناهموار را برای شناسایی شی در ناحیه مورد نظر وارد کنید و SAM آن را بر این اساس تقسیم میکند.
برای پیاده سازی این، وارد و مقداردهی اولیه کنید SamPredictor
و استفاده کنید set_image()
عملکرد ارسال تصویر ورودی بعد، تماس بگیرید predict
تابع، ارائه مختصات جعبه مرزی به عنوان ورودی برای پارامتر box
همانطور که در قطعه زیر نشان داده شده است. اعلان جعبه های محدود کننده باید در قسمت باشد [X-min, Y-min, X-max, Y-max] قالب
# Set up the SAM model with the encoded image
mask_predictor = SamPredictor(sam)
mask_predictor.set_image(image_rgb)
# Predict mask with bounding box prompt
masks, scores, logits = mask_predictor.predict(
box=bbox_prompt,
multimask_output=False
)
# Plot the bounding box prompt and predicted mask
plt.imshow(image_rgb)
show_mask(masks[0], plt.gca())
show_box(bbox_prompt, plt.gca())
plt.show()
نحوه استفاده از SAM با نقاط به عنوان درخواست
اگر برای نقطه خاصی از تصویر به ماسک شی نیاز داشته باشید چه می کنید؟ شما می توانید مختصات نقطه را به عنوان یک اعلان ورودی به SAM ارائه دهید. سپس مدل سه ماسک تقسیم بندی مرتبط را ایجاد می کند. این در صورت وجود هرگونه ابهام در مورد موضوع اصلی مورد علاقه کمک می کند.
مراحل اول شبیه به آنچه در بخش های قبلی انجام دادیم است. ماژول پیش بینی را با تصویر ورودی مقداردهی کنید. سپس، اعلان ورودی را به عنوان ارائه دهید [X,Y] مختصات به پارامتر point_coords
.
# Initialize the model with the input image
from segment_anything import sam_model_registry, SamPredictor
sam = sam_model_registry[MODEL_TYPE](checkpoint=CHECKPOINT_PATH).to(device=DEVICE)
mask_predictor = SamPredictor(sam)
mask_predictor.set_image(image_rgb)
# Provide points as input prompt [X,Y]-coordinates
input_point = np.array([[250, 200]])
input_label = np.array([1])
# Predict the segmentation mask at that point
masks, scores, logits = mask_predictor.predict(
point_coords=input_point,
point_labels=input_label,
multimask_output=True,
)
همانطور که ما تنظیم کرده ایم multimask_output
پارامتر به عنوان True، سه ماسک خروجی وجود خواهد داشت. بیایید با ترسیم ماسک ها و دستور ورودی آنها، آن را تجسم کنیم.
من همچنین نمرات IOU خودارزیابی شده را برای هر ماسک چاپ کرده ام. IOU مخفف Intersection Over Union است و انحراف بین طرح کلی شی و ماسک را اندازه گیری می کند.
نتیجه
میتوانید با جمعآوری تصاویر خام و استفاده از ابزار SAM برای حاشیهنویسی، یک مجموعه داده تقسیمبندی مناسب برای حوزه خود بسازید. این مدل حتی در شرایط دشواری مانند نویز یا انسداد عملکرد ثابتی از خود نشان داده است.
در نسخه آینده، آنها با هدف افزایش کاربرپسندی، اعلان های متنی را سازگار می کنند.
امیدواریم این اطلاعات برای شما مفید باشد!
با تشکر از شما برای خواندن! من جس هستم و در Hyperskill متخصص هستم. شما می توانید ما را بررسی کنید دوره های ML بر روی پلت فرم.
منتشر شده در 1402-12-26 08:55:04