Pandas 数据处理 - 入门到实战

Pandas 数据分析教程,包含 DataFrame 操作和数据处理实例

预计阅读时间:3 分钟

Pandas 数据处理 - 入门到实战

Pandas 是 Python 数据分析的核心库,本文带你快速掌握!


目录

  1. 什么是 Pandas?
  2. 核心数据结构
  3. 数据读取与保存
  4. 数据清洗
  5. 数据分析实战
  6. 总结

1. 什么是 Pandas?

Pandas 是基于 NumPy 的数据分析库,提供高性能、易用的数据结构。

主要应用场景: - 数据清洗 - 数据分析 - 数据可视化 - 机器学习数据预处理


2. 核心数据结构

Series(一维数组)

import pandas as pd
import numpy as np

# 创建 Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)

# 输出:
# 0    1.0
# 1    3.0
# 2    5.0
# 3    NaN
# 4    6.0
# 5    8.0
# dtype: float64

DataFrame(二维表格)

# 创建 DataFrame
df = pd.DataFrame({
    '姓名': ['张三', '李四', '王五'],
    '年龄': [25, 30, 35],
    '城市': ['北京', '上海', '深圳']
})

print(df)
#     姓名  年龄  城市
# 0  张三  25  北京
# 1  李四  30  上海
# 2  王五  35  深圳

3. 数据读取与保存

# 读取 CSV
df = pd.read_csv('data.csv')

# 读取 Excel
df = pd.read_excel('data.xlsx')

# 读取 SQL
# df = pd.read_sql('SELECT * FROM table', connection)

# 保存
df.to_csv('output.csv', index=False)
df.to_excel('output.xlsx', index=False)

4. 数据清洗

处理缺失值

# 查看缺失值
print(df.isnull().sum())

# 删除缺失值
df.dropna()

# 填充缺失值
df.fillna(0)
df.fillna(df.mean())

数据筛选

# 条件筛选
df[df['年龄'] > 25]

# 多条件
df[(df['年龄'] > 25) & (df['城市'] == '北京')]

5. 数据分析实战

import pandas as pd

# 创建示例数据
data = {
    '日期': pd.date_range('2024-01-01', periods=10),
    '销售额': [1200, 1500, 1100, 1800, 2000, 1700, 1600, 1900, 2100, 2300],
    '产品': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'C']
}
df = pd.DataFrame(data)

# 基本统计
print(df.describe())

# 按产品分组统计
print(df.groupby('产品')['销售额'].sum())

# 计算滚动平均
df['销售额_移动平均'] = df['销售额'].rolling(window=3).mean()

print(df)

6. 常用函数速查

函数 说明
head() 查看前几行
tail() 查看后几行
info() 查看数据类型
describe() 统计摘要
groupby() 分组统计
sort_values() 排序
merge() 合并数据

标签: #Python #Pandas #数据分析


本文由 suisui 发布