سرور مجازی NVMe

وارد کردن چندین فایل CSV به یک DataFrame با استفاده از پانداها در پایتون

Pythonبرنامه نویسی

توسط مهران در دی 6, 1402

نحوه حذف یک فایل یا پوشه در پایتون در این بایت ما نحوه حذف فایل ها و پوشه ها در پایتون را بررسی خواهیم کرد. این یک کار رایج در بسیاری از زمینه های برنامه نویسی و برنامه نویسی است، به ویژه در زمینه هایی مانند پاک کردن داده ها، حذف موقت فایل، یا حتی هنگام کار با پایگاه های داده مبتنی بر فایل. شما باید حذف فایل را به دقت به عنوان یک خطا مدیریت کنید...

سرفصلهای مطلب

زمان لازم برای مطالعه: 3 دقیقه

معرفی

در این بایت می خواهیم در مورد روش وارد کردن چندین فایل CSV به پانداها و الحاق آنها به یک DataFrame صحبت کنیم. این یک سناریوی رایج در تجزیه و تحلیل داده است که در آن شما باید داده ها را از منابع مختلف در یک ساختار داده واحد برای تجزیه و تحلیل ترکیب کنید.

پانداها و CSV ها

Pandas یک کتابخانه دستکاری داده بسیار محبوب در پایتون است. یکی از مهمترین ویژگی های آن توانایی خواندن و نوشتن فرمت های مختلف داده از جمله فایل های CSV است. CSV یک فرمت فایل ساده است که برای ذخیره داده های جدولی مانند صفحه گسترده یا پایگاه داده استفاده می شود.

پانداها فراهم می کند read_csv() عملکرد خواندن فایل های CSV و تبدیل آنها به DataFrame. یک DataFrame شبیه به صفحه گسترده یا جدول SQL یا a dict از سری اشیاء نمونه هایی از روش استفاده از آن را بعداً در بایت خواهیم دید.

چرا چندین فایل CSV را به هم متصل کنیم؟

این امکان وجود دارد که داده های شما در چندین فایل CSV توزیع شود، به خصوص برای یک مجموعه داده بسیار بزرگ. برای مثال، ممکن است داده‌های فروش ماهانه را در فایل‌های CSV جداگانه برای هر ماه ذخیره کنید. در این موارد، باید این فایل‌ها را به یک DataFrame متصل کنید تا تجزیه و تحلیل را روی کل مجموعه داده انجام دهید.

الحاق چندین فایل CSV به شما این امکان را می‌دهد که به‌جای اعمال یک عملیات مشابه برای هر فایل به‌صورت جداگانه، عملیات‌ها را روی کل مجموعه داده‌ها به طور همزمان انجام دهید. این نه تنها در زمان صرفه جویی می کند، بلکه کد شما را تمیزتر، درک و نوشتن را آسان تر می کند.

خواندن یک فایل CSV منفرد در یک DataFrame

قبل از اینکه به خواندن چندین فایل CSV بپردازیم، ممکن است ابتدا درک کنیم که چگونه یک فایل CSV را با استفاده از Pandas در یک DataFrame بخوانید.

این read_csv() تابع برای خواندن یک فایل CSV در یک DataFrame استفاده می شود. فقط باید نام فایل را به عنوان پارامتر به این تابع ارسال کنید.

در اینجا یک مثال است:

import pandas as pd

df = pd.read_csv('sales_january.csv')
print(df.head())

در این مثال، ما در حال خواندن sales_january.csv فایل در یک DataFrame این head() تابع برای بدست آوردن n ردیف اول استفاده می شود. به طور پیش فرض، 5 ردیف اول را برمی گرداند. خروجی ممکن است چیزی شبیه به این باشد:

   Product  SalesAmount        Date  Salesperson
0    Apple          100  1402-01-01          Bob
1   Banana           50  1402-01-02        Alice
2   Cherry           30  1402-01-03        Carol
3    Apple           80  1402-01-03          Dan
4   Orange           60  1402-01-04        Emily

توجه داشته باشید: اگر فایل CSV شما در همان دایرکتوری اسکریپت پایتون نیست، باید مسیر کامل فایل را در read_csv() تابع.

خواندن چندین فایل CSV در یک DataFrame واحد

اکنون که روش خواندن یک فایل CSV را در یک DataFrame دیدیم، بیایید ببینیم چگونه می توانیم بخوانیم. چندگانه فایل‌های CSV را با استفاده از یک حلقه به یک DataFrame واحد تبدیل کنید.

در اینجا روش خواندن چندین فایل CSV در یک DataFrame آمده است:

import pandas as pd
import glob

files = glob.glob('path/to/your/csv/files/*.csv')


combined_df = pd.DataFrame()

for filename in files:
    df = pd.read_csv(filename)
    combined_df = pd.concat((combined_df, df), ignore_index=True)

در این کد یک DataFrame خالی به نام مقداردهی اولیه می کنیم combined_df. برای هر فایلی که در یک DataFrame می خوانیم (df)، آن را به آن الحاق می کنیم combined_df با استفاده از pd.concat تابع. این ignore_index=True پارامتر DataFrame را پس از الحاق مجدداً نمایه می کند، و اطمینان حاصل می کند که شاخص پیوسته و منحصر به فرد باقی می ماند.

توجه داشته باشید: این glob ماژول بخشی از کتابخانه استاندارد پایتون است و برای یافتن تمام نام‌های مسیر مطابق با یک الگوی مشخص، مطابق با قوانین پوسته یونیکس استفاده می‌شود.

این رویکرد چندین فایل CSV را در یک DataFrame کامپایل می کند.

از Cases of Combined DataFrames استفاده کنید

الحاق چند DataFrame می تواند در موقعیت های مختلف بسیار مفید باشد. به عنوان مثال، فرض کنید شما یک دانشمند داده هستید که با داده های فروش کار می کند. داده‌های شما ممکن است در چندین فایل CSV پخش شود که هر کدام یک فصل متفاوت از سال را نشان می‌دهند. با ادغام این فایل ها در یک DataFrame، می توانید داده های کل سال را به یکباره تجزیه و تحلیل کنید.

یا شاید شما با داده‌های حسگر کار می‌کنید که هر روز در یک فایل CSV جدید ثبت می‌شوند. به هم پیوستن این فایل ها به شما امکان می دهد روندها را در طول زمان تجزیه و تحلیل کنید، ناهنجاری ها را شناسایی کنید و موارد دیگر.

به طور خلاصه، هر زمان که داده‌های مرتبطی را در چندین فایل CSV پخش کنید، الحاق آنها به یک DataFrame می‌تواند تحلیل شما را بسیار آسان‌تر کند.

نتیجه

در این بایت، ما یاد گرفتیم که چگونه چندین فایل CSV را در Pandas DataFrame مجزا بخوانیم و سپس آنها را در یک DataFrame به هم متصل کنیم. این یک روش مفید برای کار با مجموعه داده های بزرگ و گسترده است. خواه دانشمند داده ای باشید که داده های فروش را تجزیه و تحلیل می کند، محققی که با گزارش های حسگر کار می کند، یا فقط کسی که سعی می کند یک مجموعه داده بزرگ را درک کند، مدیریت پانداها با فایل های CSV و الحاق DataFrame می تواند کمک بزرگی باشد.

(برچسب‌ها به ترجمه)# python

منتشر شده در 1402-12-27 15:27:03

امتیاز شما به این مطلب