预计阅读时间:3 分钟
Pandas 数据处理 - 入门到实战
Pandas 是 Python 数据分析的核心库,本文带你快速掌握!
目录
- 什么是 Pandas?
- 核心数据结构
- 数据读取与保存
- 数据清洗
- 数据分析实战
- 总结
1. 什么是 Pandas?
Pandas 是基于 NumPy 的数据分析库,提供高性能、易用的数据结构。
主要应用场景: - 数据清洗 - 数据分析 - 数据可视化 - 机器学习数据预处理
2. 核心数据结构
Series(一维数组)
import pandas as pd
import numpy as np
# 创建 Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)
# 输出:
# 0 1.0
# 1 3.0
# 2 5.0
# 3 NaN
# 4 6.0
# 5 8.0
# dtype: float64
DataFrame(二维表格)
# 创建 DataFrame
df = pd.DataFrame({
'姓名': ['张三', '李四', '王五'],
'年龄': [25, 30, 35],
'城市': ['北京', '上海', '深圳']
})
print(df)
# 姓名 年龄 城市
# 0 张三 25 北京
# 1 李四 30 上海
# 2 王五 35 深圳
3. 数据读取与保存
# 读取 CSV
df = pd.read_csv('data.csv')
# 读取 Excel
df = pd.read_excel('data.xlsx')
# 读取 SQL
# df = pd.read_sql('SELECT * FROM table', connection)
# 保存
df.to_csv('output.csv', index=False)
df.to_excel('output.xlsx', index=False)
4. 数据清洗
处理缺失值
# 查看缺失值
print(df.isnull().sum())
# 删除缺失值
df.dropna()
# 填充缺失值
df.fillna(0)
df.fillna(df.mean())
数据筛选
# 条件筛选
df[df['年龄'] > 25]
# 多条件
df[(df['年龄'] > 25) & (df['城市'] == '北京')]
5. 数据分析实战
import pandas as pd
# 创建示例数据
data = {
'日期': pd.date_range('2024-01-01', periods=10),
'销售额': [1200, 1500, 1100, 1800, 2000, 1700, 1600, 1900, 2100, 2300],
'产品': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'C']
}
df = pd.DataFrame(data)
# 基本统计
print(df.describe())
# 按产品分组统计
print(df.groupby('产品')['销售额'].sum())
# 计算滚动平均
df['销售额_移动平均'] = df['销售额'].rolling(window=3).mean()
print(df)
6. 常用函数速查
| 函数 | 说明 |
|---|---|
head() |
查看前几行 |
tail() |
查看后几行 |
info() |
查看数据类型 |
describe() |
统计摘要 |
groupby() |
分组统计 |
sort_values() |
排序 |
merge() |
合并数据 |
标签: #Python #Pandas #数据分析
本文由 suisui 发布