از طریق منوی جستجو مطلب مورد نظر خود در وبلاگ را به سرعت پیدا کنید
شمارش مقادیر غیر NaN در ستون های DataFrame
سرفصلهای مطلب
معرفی
پاکسازی داده ها گام مهمی در هر پروژه علم داده است. در پایتون، Pandas DataFrame یک ساختار داده رایج برای دستکاری و تجزیه و تحلیل داده ها است.
در این بایت، ما تمرکز می کنیم روی رسیدگی به غیرNaN
مقادیر (نه یک عدد) در ستون های DataFrame. ما یاد خواهیم گرفت که چگونه کل غیر را بشماریم و محاسبه کنیمNaN
مقادیر، و همچنین رشته های خالی را به عنوان مقادیر NA در نظر بگیرید.
شمارش مقادیر غیر NaN در ستون های DataFrame
پانداها فراهم می کند count()
تابع شمارش غیرNaN
مقادیر در ستون های DataFrame بیایید با وارد کردن کتابخانه پانداها و ایجاد یک DataFrame ساده شروع کنیم.
import pandas as pd
import numpy as np
data = {'Name': ('Tom', 'Nick', 'John', np.nan),
'Age': (20, 21, 19, np.nan)}
df = pd.DataFrame(data)
print(df)
خروجی:
Name Age
0 Tom 20.0
1 Nick 21.0
2 John 19.0
3 NaN NaN
اکنون، می توانیم موارد غیر را بشماریمNaN
مقادیر در هر ستون با استفاده از count()
روش:
print(df.count())
خروجی:
Name 3
Age 3
dtype: int64
محاسبه مجموع مقادیر غیر NaN در DataFrame
اگر می خواهید تعداد کل غیرNaN
از مقادیر موجود در DataFrame می توانید استفاده کنید count()
تابع ترکیب شده با sum()
.
print(df.count().sum())
خروجی:
6
این نشان می دهد که در مجموع 6 غیرNaN
مقادیر در DataFrame
در نظر گرفتن رشته های خالی به عنوان مقادیر NA
در برخی موارد، ممکن است بخواهید رشته های خالی را به عنوان مقادیر NA در نظر بگیرید. می توانید استفاده کنید replace()
تابعی برای جایگزینی رشته های خالی با np.nan
.
data = {'Name': ('Tom', 'Nick', '', 'John'),
'Age': (20, 21, '', 19)}
df = pd.DataFrame(data)
print(df)
خروجی:
Name Age
0 Tom 20
1 Nick 21
2
3 John 19
اکنون رشته های خالی را جایگزین کنید np.nan
:
df.replace('', np.nan, inplace=True)
print(df)
خروجی:
Name Age
0 Tom 20.0
1 Nick 21.0
2 NaN NaN
3 John 19.0
توجه داشته باشید: این عملیات DataFrame را در محل تغییر می دهد. اگر می خواهید DataFrame اصلی را دست نخورده نگه دارید، از آن استفاده نکنید inplace=True
بحث و جدل.
استفاده کردن notna() برای شمارش مقادیر غیر از دست رفته
یک روش کمی مستقیم تر برای فیلتر کردن و شمارش غیرNaN
ارزش ها با notna()
روش.
بیایید با یک DataFrame ساده شروع کنیم:
import pandas as pd
data = {'Name': ('John', 'Anna', None, 'Mike', 'Sarah'),
'Age': (28, None, None, 32, 29),
'City': ('New York', 'Los Angeles', None, 'Chicago', 'Boston')}
df = pd.DataFrame(data)
print(df)
این خروجی خواهد داشت:
Name Age City
0 John 28.0 New York
1 Anna NaN Los Angeles
2 None NaN None
3 Mike 32.0 Chicago
4 Sarah 29.0 Boston
می توانید ببینید که DataFrame ما مقادیری از دست رفته دارد (NaN
یا None
).
اکنون، اگر میخواهید مقادیر گم نشده را در ستون «Name» بشمارید، میتوانید از آن استفاده کنید notna()
:
print(df('Name').notna().sum())
این خروجی خواهد داشت:
4
را notna()
تابع یک سری بولی را در جایی که True
نشان دهنده یک مقدار غیر از دست رفته و False
یک مقدار گم شده را نشان می دهد. را sum()
سپس از تابع برای شمارش تعداد استفاده می شود True
مقادیر، که مقادیر غیر از دست رفته را نشان می دهند.
نتیجه
در این بایت، روش شمارش غیرNaN
مقادیر در ستون های DataFrame مدیریت داده های از دست رفته گام مهمی در پیش پردازش داده ها است. را notna()
تابع، در میان دیگر توابع در پانداها، روشی ساده برای شمارش مقادیر گمشده در ستونهای DataFrame فراهم میکند.
(برچسبها به ترجمه)# python
منتشر شده در 1402-12-30 08:28:03