CSV 数据分析器
此技能分析 CSV 文件并提供包含统计洞察和可视化的全面摘要。
何时使用此技能
当用户:
- •上传或提到 CSV 文件
- •要求汇总、分析或可视化表格数据
- •请求从 CSV 数据中获取洞察
- •想了解数据结构和质量
工作原理
⚠️ 关键行为要求 ⚠️
不要问用户想用数据做什么。 不要提供选项或选择。 不要说"您想让我帮您做什么?" 不要列出可能的分析选项。
立即自动执行:
- •运行全面分析
- •生成所有相关可视化
- •展示完整结果
- •不提问、不给选项、不等待用户输入
用户想要立即获得完整分析 - 直接做就行。
自动分析步骤:
该技能通过先检查数据,然后确定最相关的分析,智能适应不同的数据类型和行业。
- •
加载并检查 CSV 文件到 pandas DataFrame
- •
识别数据结构 - 列类型、日期列、数值列、类别
- •
根据数据内容确定相关分析:
- •销售/电商数据(订单日期、收入、产品):时间序列趋势、收入分析、产品表现
- •客户数据(人口统计、细分、区域):分布分析、细分、地理模式
- •财务数据(交易、金额、日期):趋势分析、统计摘要、相关性
- •运营数据(时间戳、指标、状态):时间序列、绩效指标、分布
- •调查数据(分类响应、评分):频率分析、交叉表、分布
- •通用表格数据:根据找到的列类型调整
- •
只创建对特定数据集有意义的可视化:
- •时间序列图仅在存在日期/时间戳列时
- •相关性热图仅在存在多个数值列时
- •类别分布仅在存在分类列时
- •数值分布的直方图(相关时)
- •
自动生成全面输出包括:
- •数据概览(行数、列数、类型)
- •与数据类型相关的关键统计和指标
- •缺失数据分析
- •多个相关可视化(仅适用的那些)
- •基于此特定数据集中发现的模式的可操作洞察
- •
一次性展示所有内容 - 不追问
适应示例:
- •带患者ID的医疗数据 → 专注于人口统计、治疗模式、时间趋势
- •带库存水平的库存数据 → 专注于数量分布、补货模式、SKU分析
- •带时间戳的网站分析 → 专注于流量模式、转化指标、时段分析
- •调查响应 → 专注于响应分布、人口统计细分、情感模式
行为指南
✅ 正确方法 - 这样说:
- •"我现在对这些数据进行全面分析。"
- •"这是带可视化的完整分析:"
- •"我识别出这是[类型]数据并生成了相关洞察:"
- •然后立即展示完整分析
✅ 要做:
- •立即运行分析脚本
- •自动生成所有相关图表
- •无需询问即提供完整洞察
- •在第一次响应中就做到全面完整
- •果断行动,不需征求许可
❌ 永远不要说这些话:
- •"您想用这些数据做什么?"
- •"您想让我帮您做什么?"
- •"这里有一些常见选项:"
- •"让我知道您想要什么帮助"
- •"如果您愿意,我可以创建全面分析!"
- •任何以"?"结尾询问用户方向的句子
- •任何选项或选择列表
- •任何条件性的"如果您想,我可以做X"
❌ 禁止行为:
- •询问用户想要什么
- •列出选项供用户选择
- •在分析前等待用户指示
- •提供需要后续跟进的部分分析
- •描述你可以做什么而不是直接做
使用方法
该技能提供 Python 函数 summarize_csv(file_path):
- •接受 CSV 文件的路径
- •返回带统计信息的全面文本摘要
- •根据数据结构自动生成多个可视化
示例提示
"这是
sales_data.csv。你能汇总这个文件吗?"
"分析这个客户数据 CSV 并展示趋势。"
"你能从
orders.csv中发现什么洞察?"
示例输出
数据集概览
- •5,000 行 × 8 列
- •3 个数值列,1 个日期列
统计摘要
- •平均订单价值:$58.2
- •标准差:$12.4
- •缺失值:2%(100个单元格)
洞察
- •销售随时间呈上升趋势
- •Q4活动达到峰值 (附:趋势图)
文件
- •
analyze.py- 核心分析逻辑 - •
requirements.txt- Python 依赖 - •
resources/sample.csv- 用于测试的示例数据集 - •
resources/README.md- 附加文档
注意事项
- •自动检测日期列(名称中包含 'date' 的列)
- •优雅处理缺失数据
- •仅在存在日期列时生成可视化
- •所有数值列都包含在统计摘要中