Pandas 是基于 NumPy 的数据分析库,擅长处理表格化或异质性数据(well-suited for tabular or heterogeneous data)
pip install pandas # 如果你已安装 Anaconda,则默认自带 Pandas,不需要pip install...import pandas as pd # pd同样也是海内外社区通用名称import pandas as pd
import numpy as np
# 创建一个简单的Series
一维数组 = pd.Series(["贝果", "司康", "碱水"], index=["星期一", "星期二", "星期三"], name="早餐")
print(一维数组["星期一"]) # 输出贝果
# 从字典创建Series
午餐 = { "星期一": "沙县", "星期二": "黄焖鸡", "星期三": "麻辣烫"}
午餐数组 = pd.Series(午餐, name="午餐")
print(午餐数组["星期二"]) # 输出黄焖鸡
# 从NumPy数组创建Series
晚餐 = np.array(["炒饭", "炒面", "炒粉"])
索引 = ["星期一", "星期二", "星期三"]
晚餐数组 = pd.Series(晚餐, index=索引, name="晚餐")
print(晚餐数组["星期三"]) # 输出炒粉关于索引的说明:
print(晚餐数组.values) # 获取值数组
print(晚餐数组.index) # 获取索引
print(晚餐数组.name) # 获取名称
print(晚餐数组.dtype) # 获取数据类型
晚餐数组["星期三"] = "炒饼" # 修改值
晚餐数组 = 晚餐数组.append(pd.Series(["炒年糕"], index=["星期四"])) # 追加数据
晚餐数组 = 晚餐数组.drop("星期三") # 删除数据
晚餐数组.isnull() # 检查缺失值
晚餐数组.dropna() # 删除缺失值
晚餐数组.fillna("未知") # 填充缺失值
晚餐数组[晚餐数组 == "炒饭"] # 筛选符合条件的值
晚餐数组.str.contains("炒") # 检查是否包含特定字符串import pandas as pd
游戏数据 = {
"角色": ["亚索", "劫", "阿狸", "金克丝"],
"位置": ["中路", "中路", "中路", "下路"],
"胜率": [49.3, 50.1, 51.7, 52.4]
}
游戏数据框 = pd.DataFrame(游戏数据)
print(游戏数据框)
# -------------------------------------------------------------------
import numpy as np
电影数据 = np.array([
["复仇者联盟4: 终局之战", 8.4, 2019, "动作"],
["流浪地球2", 8.3, 2023, "科幻"],
["蜘蛛侠:纵横宇宙", 8.6, 2023, "动画"],
["奥本海默", 8.5, 2023, "传记"]
])
电影数据框 = pd.DataFrame(电影数据, columns=["电影名称", "评分", "上映年份", "类型"])
print(电影数据框)常见操作:
print(游戏数据框.head()) # 查看前几行数据,默认为前5行
print(游戏数据框.tail()) # 查看后几行数据,默认为后5行
print(游戏数据框.shape) # 查看数据框的形状,即行数和列数
print(游戏数据框.columns) # 查看列名
print(游戏数据框.index) # 查看索引
print(游戏数据框.info()) # 查看数据框的基本信息
print(游戏数据框.describe()) # 查看数值型数据的统计信息
print(游戏数据框["角色"]) # 获取某一列的数据
print(游戏数据框.loc[0]) # 获取某一行的数据
print(游戏数据框.iloc[0]) # 获取某一行的数据,通过行号索引
print(游戏数据框.loc[0:2, "位置"]) # 获取某几行某一列的数据
print(游戏数据框[游戏数据框["胜率"] > 50]) # 筛选符合条件的行
print(游戏数据框.sort_values(by="胜率", ascending=False)) # 按照某一列的值进行排序
print(游戏数据框.drop("位置", axis=1)) # 删除某一列的数据
print(游戏数据框.drop(0)) # 删除某一行的数据Pandas 提供了多种读取和存储数据的方式,如 CSV、Excel、SQL 数据库等
csv读取文件 = pd.read_csv("数据.csv")
print(csv读取文件.head())说明:
csv读取文件.to_csv("数据输出.csv", index=False)说明:
import pandas as pd
# 读取Excel文件
数据框 = pd.read_excel("数据.xlsx", sheet_name="表1")
# 写入Excel文件
数据框.to_excel("新数据.xlsx", sheet_name="表2")print(df.loc[0, "name"]) # 第一行, name 列
print(df.iloc[1, 2]) # 第二行, 第三列