از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
وارد کردن چندین فایل CSV به یک DataFrame با استفاده از پانداها در پایتون
سرفصلهای مطلب
معرفی
در این بایت می خواهیم در مورد روش وارد کردن چندین فایل CSV به پانداها و الحاق آنها به یک DataFrame صحبت کنیم. این یک سناریوی رایج در تجزیه و تحلیل داده است که در آن شما باید داده ها را از منابع مختلف در یک ساختار داده واحد برای تجزیه و تحلیل ترکیب کنید.
پانداها و CSV ها
Pandas یک کتابخانه دستکاری داده بسیار محبوب در پایتون است. یکی از مهمترین ویژگی های آن توانایی خواندن و نوشتن فرمت های مختلف داده از جمله فایل های CSV است. CSV یک فرمت فایل ساده است که برای ذخیره داده های جدولی مانند صفحه گسترده یا پایگاه داده استفاده می شود.
پانداها فراهم می کند read_csv()
عملکرد خواندن فایل های CSV و تبدیل آنها به DataFrame. یک DataFrame شبیه به صفحه گسترده یا جدول SQL یا a dict
از سری اشیاء نمونه هایی از روش استفاده از آن را بعداً در بایت خواهیم دید.
چرا چندین فایل CSV را به هم متصل کنیم؟
این امکان وجود دارد که داده های شما در چندین فایل CSV توزیع شود، به خصوص برای یک مجموعه داده بسیار بزرگ. برای مثال، ممکن است دادههای فروش ماهانه را در فایلهای CSV جداگانه برای هر ماه ذخیره کنید. در این موارد، باید این فایلها را به یک DataFrame متصل کنید تا تجزیه و تحلیل را روی کل مجموعه داده انجام دهید.
الحاق چندین فایل CSV به شما این امکان را میدهد که بهجای اعمال یک عملیات مشابه برای هر فایل بهصورت جداگانه، عملیاتها را روی کل مجموعه دادهها به طور همزمان انجام دهید. این نه تنها در زمان صرفه جویی می کند، بلکه کد شما را تمیزتر، درک و نوشتن را آسان تر می کند.
خواندن یک فایل CSV منفرد در یک DataFrame
قبل از اینکه به خواندن چندین فایل CSV بپردازیم، ممکن است ابتدا درک کنیم که چگونه یک فایل CSV را با استفاده از Pandas در یک DataFrame بخوانید.
این read_csv()
تابع برای خواندن یک فایل CSV در یک DataFrame استفاده می شود. فقط باید نام فایل را به عنوان پارامتر به این تابع ارسال کنید.
در اینجا یک مثال است:
import pandas as pd
df = pd.read_csv('sales_january.csv')
print(df.head())
در این مثال، ما در حال خواندن sales_january.csv
فایل در یک DataFrame این head()
تابع برای بدست آوردن n ردیف اول استفاده می شود. به طور پیش فرض، 5 ردیف اول را برمی گرداند. خروجی ممکن است چیزی شبیه به این باشد:
Product SalesAmount Date Salesperson
0 Apple 100 1402-01-01 Bob
1 Banana 50 1402-01-02 Alice
2 Cherry 30 1402-01-03 Carol
3 Apple 80 1402-01-03 Dan
4 Orange 60 1402-01-04 Emily
توجه داشته باشید: اگر فایل CSV شما در همان دایرکتوری اسکریپت پایتون نیست، باید مسیر کامل فایل را در read_csv()
تابع.
خواندن چندین فایل CSV در یک DataFrame واحد
اکنون که روش خواندن یک فایل CSV را در یک DataFrame دیدیم، بیایید ببینیم چگونه می توانیم بخوانیم. چندگانه فایلهای CSV را با استفاده از یک حلقه به یک DataFrame واحد تبدیل کنید.
در اینجا روش خواندن چندین فایل CSV در یک DataFrame آمده است:
import pandas as pd
import glob
files = glob.glob('path/to/your/csv/files/*.csv')
combined_df = pd.DataFrame()
for filename in files:
df = pd.read_csv(filename)
combined_df = pd.concat((combined_df, df), ignore_index=True)
در این کد یک DataFrame خالی به نام مقداردهی اولیه می کنیم combined_df
. برای هر فایلی که در یک DataFrame می خوانیم (df
)، آن را به آن الحاق می کنیم combined_df
با استفاده از pd.concat
تابع. این ignore_index=True
پارامتر DataFrame را پس از الحاق مجدداً نمایه می کند، و اطمینان حاصل می کند که شاخص پیوسته و منحصر به فرد باقی می ماند.
توجه داشته باشید: این glob
ماژول بخشی از کتابخانه استاندارد پایتون است و برای یافتن تمام نامهای مسیر مطابق با یک الگوی مشخص، مطابق با قوانین پوسته یونیکس استفاده میشود.
این رویکرد چندین فایل CSV را در یک DataFrame کامپایل می کند.
از Cases of Combined DataFrames استفاده کنید
الحاق چند DataFrame می تواند در موقعیت های مختلف بسیار مفید باشد. به عنوان مثال، فرض کنید شما یک دانشمند داده هستید که با داده های فروش کار می کند. دادههای شما ممکن است در چندین فایل CSV پخش شود که هر کدام یک فصل متفاوت از سال را نشان میدهند. با ادغام این فایل ها در یک DataFrame، می توانید داده های کل سال را به یکباره تجزیه و تحلیل کنید.
یا شاید شما با دادههای حسگر کار میکنید که هر روز در یک فایل CSV جدید ثبت میشوند. به هم پیوستن این فایل ها به شما امکان می دهد روندها را در طول زمان تجزیه و تحلیل کنید، ناهنجاری ها را شناسایی کنید و موارد دیگر.
به طور خلاصه، هر زمان که دادههای مرتبطی را در چندین فایل CSV پخش کنید، الحاق آنها به یک DataFrame میتواند تحلیل شما را بسیار آسانتر کند.
نتیجه
در این بایت، ما یاد گرفتیم که چگونه چندین فایل CSV را در Pandas DataFrame مجزا بخوانیم و سپس آنها را در یک DataFrame به هم متصل کنیم. این یک روش مفید برای کار با مجموعه داده های بزرگ و گسترده است. خواه دانشمند داده ای باشید که داده های فروش را تجزیه و تحلیل می کند، محققی که با گزارش های حسگر کار می کند، یا فقط کسی که سعی می کند یک مجموعه داده بزرگ را درک کند، مدیریت پانداها با فایل های CSV و الحاق DataFrame می تواند کمک بزرگی باشد.
(برچسبها به ترجمه)# python
منتشر شده در 1402-12-27 15:27:03