وبلاگ رسانگار
با ما حرفه ای باشید

سرور مجازی NVMe

تجزیه URL ها با پایتون

0 36
زمان لازم برای مطالعه: 3 دقیقه


معرفی

بدون شک URL ها بخش مهمی از اینترنت هستند، زیرا به ما امکان دسترسی به منابع و گشت و گذار در وب سایت ها را می دهند. اگر اینترنت یک نمودار غول پیکر بود (که هست)، URL ها لبه ها خواهند بود.

زمانی که نیاز داریم URL را به اجزای آن مانند طرح، دامنه، مسیر و پارامترهای پرس و جو تجزیه کنیم. ما این کار را برای استخراج اطلاعات، دستکاری آنها، یا شاید برای ساخت URL های جدید انجام می دهیم. این تکنیک برای بسیاری از وظایف مختلف توسعه وب، مانند خراش دادن وب، ادغام با یک API یا توسعه برنامه عمومی ضروری است.

در این آموزش کوتاه، روش تجزیه URL ها با استفاده از پایتون را بررسی خواهیم کرد.

توجه داشته باشید: در طول این آموزش ما از Python 3.x استفاده خواهیم کرد، زیرا در آن زمان است urllib.parse کتابخانه در دسترس قرار گرفت

تجزیه URL در پایتون

برای ما خوش شانس است، پایتون کتابخانه های داخلی قدرتمندی را برای تجزیه URL ارائه می دهد که به شما امکان می دهد URL ها را به راحتی به اجزا تقسیم کرده و آنها را بازسازی کنید. این urllib.parse کتابخانه، که بخشی از کتابخانه بزرگتر است urllib ماژول، مجموعه ای از توابع را ارائه می دهد که به شما کمک می کند تا URL ها را به اجزای جداگانه آنها تجزیه کنید.

برای تجزیه یک URL در پایتون، ابتدا این کار را انجام می دهیم import را urllib.parse کتابخانه و استفاده کنید urlparse() تابع:

from urllib.parse import urlparse

url = "https://example.com/path/to/resource؟query=example&lang=en"
parsed_url = urlparse(url)

این parsed_url شی اکنون شامل اجزای جداگانه URL است که دارای اجزای زیر است:

  • طرح: https
  • دامنه: example.com
  • مسیر: /path/to/resource
  • پارامترهای پرس و جو: query=example&lang=en

برای ادامه process پارامترهای پرس و جو، شما می توانید استفاده کنید parse_qs تابع از urllib.parse کتابخانه:

from urllib.parse import parse_qs

query_parameters = parse_qs(parsed_url.query)
print("Parsed query parameters:", query_parameters)

خروجی خواهد بود:

Parsed query parameters: {'query': ('example'), 'lang': ('en')}

با این روش ساده، URL و اجزای آن را با استفاده از داخلی پایتون با موفقیت تجزیه کرده اید urllib.parse کتابخانه! با استفاده از این، می توانید URL ها را در پروژه های توسعه وب خود بهتر مدیریت و دستکاری کنید.

پیشنهاد می‌کنیم بخوانید:  روش نصب OpenCV در CentOS 7

بهترین روش ها برای تجزیه URL

اعتبار سنجی URL ها: اطمینان از معتبر بودن و قالب بندی صحیح URL ها قبل از تجزیه و دستکاری آنها برای جلوگیری از خطا ضروری است. می توانید از برنامه داخلی پایتون استفاده کنید urllib.parse کتابخانه یا سایر کتابخانه های شخص ثالث مانند اعتبار سنجی ها برای بررسی اعتبار یک URL

در اینجا یک مثال با استفاده از validators کتابخانه:

import validators

url = "https://example.com/path/to/resource؟query=example&lang=en"

if validators.url(url):
    print("URL is valid")
else:
    print("URL is invalid")

با اعتبارسنجی URL ها قبل از تجزیه یا استفاده از آنها، می توانید از مشکلات مربوط به کار با URL های با فرمت نادرست جلوگیری کنید و اطمینان حاصل کنید که شما پایدارتر است و کمتر مستعد خطا یا خرابی است.

برخورد صحیح با شخصیت های خاص: URL ها اغلب حاوی کاراکترهای خاصی هستند که برای اطمینان از تجزیه و پردازش دقیق باید به درستی کدگذاری یا رمزگشایی شوند. این کاراکترهای خاص، مانند فاصله ها یا نویسه های غیر ASCII، باید با استفاده از فرمت رمزگذاری درصد (به عنوان مثال، %20 برای یک فاصله) به طور ایمن در یک URL گنجانده شود. هنگام تجزیه و دستکاری URL ها، برای جلوگیری از خطا یا رفتار غیرمنتظره، ضروری است که این کاراکترهای خاص را به طور مناسب مدیریت کنید.

این urllib.parse کتابخانه توابعی مانند quote() و unquote() برای مدیریت رمزگذاری و رمزگشایی کاراکترهای خاص. در اینجا یک نمونه از این موارد در حال استفاده آورده شده است:

from urllib.parse import quote, unquote

url = "https://example.com/path/to/resource with spaces؟query=example&lang=en"


encoded_url = quote(url, safe=':/?&=')
print("Encoded URL:", encoded_url)


decoded_url = unquote(encoded_url)
print("Decoded URL:", decoded_url)

این کد خروجی خواهد داشت:

Encoded URL: https://example.com/path/to/resource%20with%20spaces؟query=example&lang=en
Decoded URL: https://example.com/path/to/resource with spaces؟query=example&lang=en

استفاده از کاراکترهای خاص در URL ها همیشه تمرین خوبی است تا بتوانید مطمئن شوید که کد تجزیه و دستکاری شما بدون خطا باقی می ماند.

پیشنهاد می‌کنیم بخوانید:  چگونه از Python SDK برای ساختن وب Scraper خود استفاده کنید

نتیجه

تجزیه URL ها با پایتون یک مهارت ضروری برای توسعه دهندگان وب و برنامه نویسان است که به آنها امکان می دهد URL ها را به راحتی استخراج، دستکاری و تجزیه و تحلیل کنند. با استفاده از کتابخانه های داخلی پایتون، مانند urllib.parse، می توانید URL ها را به طور مؤثر به اجزای آنها تقسیم کنید و عملیات مختلفی مانند استخراج اطلاعات، عادی سازی URL ها یا اصلاح آنها برای اهداف خاص انجام دهید.

علاوه بر این، پیروی از بهترین روش‌ها مانند اعتبارسنجی URLها و مدیریت کاراکترهای خاص، تضمین می‌کند که وظایف تجزیه و دستکاری شما دقیق و قابل اعتماد هستند.

(برچسب‌ها به ترجمه)# python



منتشر شده در 1403-01-01 07:05:03

امتیاز شما به این مطلب
دیدگاه شما در خصوص مطلب چیست ؟

آدرس ایمیل شما منتشر نخواهد شد.

لطفا دیدگاه خود را با احترام به دیدگاه های دیگران و با توجه به محتوای مطلب درج کنید