结果展示说明
输入示例
当用户执行以下命令时:
python main.py sales_data.csv
其中 sales_data.csv 包含以下结构:
| date | product_id | sales_amount | region |
|------------|------------|--------------|--------|
| 2025-01-01 | P1001 | 299.99 | North |
| 2025-01-02 | P1002 | 159.50 | South |
| ... | ... | ... | ... |
输出内容
系统将返回如下 JSON 格式结果:
{
"file_info": {
"rows": 1000,
"columns": ["date", "product_id", "sales_amount", "region"],
"dtypes": {
"date": "object",
"product_id": "object",
"sales_amount": "float64",
"region": "object"
}
},
"statistics": {
"sales_amount": {
"count": 998,
"mean": 245.78,
"std": 89.32,
"min": 10.00,
"25%": 120.50,
"50%": 230.00,
"75%": 350.25,
"max": 999.99
},
"region": {
"count": 1000,
"unique": 4,
"top": "North",
"freq": 320
}
},
"missing_values": {
"date": 0,
"product_id": 0,
"sales_amount": 2,
"region": 0
}
}
输出说明
-
file_info 部分:
- 显示总行数(含缺失值)
- 列出所有列名
- 标注每列的数据类型
-
statistics 部分:
- 数值列:展示计数、均值、标准差、最小值、四分位数和最大值
- 分类列:展示唯一值数量、最常见类别及其出现频次
-
missing_values 部分:
- 精确统计每列的缺失值数量
- 帮助快速定位数据质量问题