سرور مجازی NVMe

شمارش مقادیر غیر NaN در ستون های DataFrame

Pythonبرنامه نویسی

توسط مهران در دی 9, 1402

ایندکس یک DataFrame پاندا را به یک ستون در پایتون تبدیل کنید

سرفصلهای مطلب

زمان لازم برای مطالعه: 2 دقیقه

معرفی

پاکسازی داده ها گام مهمی در هر پروژه علم داده است. در پایتون، Pandas DataFrame یک ساختار داده رایج برای دستکاری و تجزیه و تحلیل داده ها است.

در این بایت، ما تمرکز می کنیم روی رسیدگی به غیرNaN مقادیر (نه یک عدد) در ستون های DataFrame. ما یاد خواهیم گرفت که چگونه کل غیر را بشماریم و محاسبه کنیمNaN مقادیر، و همچنین رشته های خالی را به عنوان مقادیر NA در نظر بگیرید.

شمارش مقادیر غیر NaN در ستون های DataFrame

پانداها فراهم می کند count() تابع شمارش غیرNaN مقادیر در ستون های DataFrame بیایید با وارد کردن کتابخانه پانداها و ایجاد یک DataFrame ساده شروع کنیم.

import pandas as pd
import numpy as np

data = {'Name': ('Tom', 'Nick', 'John', np.nan),
        'Age': (20, 21, 19, np.nan)}

df = pd.DataFrame(data)

print(df)

خروجی:

   Name   Age
0   Tom  20.0
1  Nick  21.0
2  John  19.0
3   NaN   NaN

اکنون، می توانیم موارد غیر را بشماریمNaN مقادیر در هر ستون با استفاده از count() روش:

print(df.count())

خروجی:

Name    3
Age     3
dtype: int64

محاسبه مجموع مقادیر غیر NaN در DataFrame

اگر می خواهید تعداد کل غیرNaN از مقادیر موجود در DataFrame می توانید استفاده کنید count() تابع ترکیب شده با sum().

print(df.count().sum())

خروجی:

این نشان می دهد که در مجموع 6 غیرNaN مقادیر در DataFrame

در نظر گرفتن رشته های خالی به عنوان مقادیر NA

در برخی موارد، ممکن است بخواهید رشته های خالی را به عنوان مقادیر NA در نظر بگیرید. می توانید استفاده کنید replace() تابعی برای جایگزینی رشته های خالی با np.nan.

data = {'Name': ('Tom', 'Nick', '', 'John'),
        'Age': (20, 21, '', 19)}

df = pd.DataFrame(data)

print(df)

خروجی:

   Name Age
0   Tom  20
1  Nick  21
2        
3  John  19

اکنون رشته های خالی را جایگزین کنید np.nan:

df.replace('', np.nan, inplace=True)

print(df)

خروجی:

   Name  Age
0   Tom  20.0
1  Nick  21.0
2   NaN   NaN
3  John  19.0

توجه داشته باشید: این عملیات DataFrame را در محل تغییر می دهد. اگر می خواهید DataFrame اصلی را دست نخورده نگه دارید، از آن استفاده نکنید inplace=True بحث و جدل.

استفاده کردن notna() برای شمارش مقادیر غیر از دست رفته

یک روش کمی مستقیم تر برای فیلتر کردن و شمارش غیرNaN ارزش ها با notna() روش.

بیایید با یک DataFrame ساده شروع کنیم:

import pandas as pd

data = {'Name': ('John', 'Anna', None, 'Mike', 'Sarah'),
        'Age': (28, None, None, 32, 29),
        'City': ('New York', 'Los Angeles', None, 'Chicago', 'Boston')}

df = pd.DataFrame(data)

print(df)

این خروجی خواهد داشت:

   Name   Age         City
0  John  28.0     New York
1  Anna   NaN  Los Angeles
2  None   NaN         None
3  Mike  32.0      Chicago
4 Sarah  29.0       Boston

می توانید ببینید که DataFrame ما مقادیری از دست رفته دارد (NaN یا None).

اکنون، اگر می‌خواهید مقادیر گم نشده را در ستون «Name» بشمارید، می‌توانید از آن استفاده کنید notna():

print(df('Name').notna().sum())

این خروجی خواهد داشت:

را notna() تابع یک سری بولی را در جایی که True نشان دهنده یک مقدار غیر از دست رفته و False یک مقدار گم شده را نشان می دهد. را sum() سپس از تابع برای شمارش تعداد استفاده می شود True مقادیر، که مقادیر غیر از دست رفته را نشان می دهند.

نتیجه

در این بایت، روش شمارش غیرNaN مقادیر در ستون های DataFrame مدیریت داده های از دست رفته گام مهمی در پیش پردازش داده ها است. را notna() تابع، در میان دیگر توابع در پانداها، روشی ساده برای شمارش مقادیر گمشده در ستون‌های DataFrame فراهم می‌کند.

(برچسب‌ها به ترجمه)# python

منتشر شده در 1402-12-30 08:28:03

امتیاز شما به این مطلب