חקור את ספריית הפנדות של Python לניתוח נתונים
Pandas היא ספריית Python רבת עוצמה המשמשת למניפולציה וניתוח נתונים. הוא מספק מבני נתונים ופונקציות הדרושים לעבודה עם נתונים מובנים בצורה חלקה. עם מבני הנתונים הקלים לשימוש, Pandas שימושי במיוחד לניקוי נתונים, טרנספורמציה וניתוח. מאמר זה בוחן את תכונות הליבה של Pandas וכיצד אתה יכול להשתמש בה כדי לטפל בנתונים ביעילות.
תחילת העבודה עם פנדות
כדי להתחיל להשתמש ב-Pandas, אתה צריך להתקין אותו באמצעות pip. אתה יכול לעשות זאת על ידי הפעלת הפקודה הבאה:
pip install pandas
מבני נתונים ליבה
Pandas מספקת שני מבני נתונים עיקריים: Series ו-DataFrame.
סִדרָה
סדרה היא אובייקט דמוי מערך חד מימדי שיכול להכיל סוגי נתונים שונים, כולל מספרים שלמים, מחרוזות ומספרי נקודה צפה. לכל רכיב בסדרה יש אינדקס משויך.
import pandas as pd
# Creating a Series
data = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(data)
DataFrame
DataFrame הוא מבנה נתונים טבלאי דו מימדי, ניתן לשינוי בגודל והטרוגני עם צירים מסומנים (שורות ועמודות). זה בעצם אוסף של סדרות.
# Creating a DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)
מניפולציה של נתונים
Pandas מציעה מגוון רחב של פונקציות לתפעול נתונים, כולל אינדקס, חיתוך וסינון.
יצירת אינדקס וחיתוך
# Selecting a single column
print(df['Name'])
# Selecting multiple columns
print(df[['Name', 'City']])
# Selecting rows by index
print(df.loc[0]) # First row
print(df.iloc[1]) # Second row
סינון נתונים
# Filtering data based on conditions
filtered_df = df[df['Age'] > 30]
print(filtered_df)
ניקוי נתונים
ניקוי נתונים הוא שלב מכריע בניתוח נתונים. Pandas מספקת מספר שיטות לטיפול בנתונים חסרים, רשומות כפולות ושינוי נתונים.
טיפול בנתונים חסרים
# Creating a DataFrame with missing values
data = {
'Name': ['Alice', 'Bob', None],
'Age': [25, None, 35]
}
df = pd.DataFrame(data)
# Filling missing values
df_filled = df.fillna({'Name': 'Unknown', 'Age': df['Age'].mean()})
print(df_filled)
הסרת כפילויות
# Removing duplicate rows
df_unique = df.drop_duplicates()
print(df_unique)
מַסְקָנָה
Pandas הוא כלי חיוני לניתוח נתונים ב- Python. מבני הנתונים והפונקציות העוצמתיים שלו מקלים על טיפול, מניפולציה וניתוח נתונים. על ידי שליטה ב-Pandas, אתה יכול לשפר משמעותית את יכולות ניתוח הנתונים שלך ולייעל את זרימת העבודה שלך.