csv-data-summarizer

CSV数据分析技能。使用Python和Pandas分析CSV文件，生成统计摘要和快速可视化图表。当用户上传或提到CSV文件、需要分析表格数据时，本技能会自动使用。

SKILL.md

--- frontmatter

name: csv-data-summarizer
description: CSV数据分析技能。使用Python和pandas分析CSV文件，生成统计摘要和快速可视化图表。当用户上传或提到CSV文件、需要分析表格数据时自动使用。
metadata:
  version: "2.1.0"
  dependencies: python>=3.8, pandas>=2.0.0, matplotlib>=3.7.0, seaborn>=0.12.0

CSV 数据分析器

此技能分析 CSV 文件并提供包含统计洞察和可视化的全面摘要。

何时使用此技能

当用户：

•上传或提到 CSV 文件
•要求汇总、分析或可视化表格数据
•请求从 CSV 数据中获取洞察
•想了解数据结构和质量

工作原理

⚠️ 关键行为要求 ⚠️

不要问用户想用数据做什么。 不要提供选项或选择。 不要说"您想让我帮您做什么？" 不要列出可能的分析选项。

立即自动执行：

•运行全面分析
•生成所有相关可视化
•展示完整结果
•不提问、不给选项、不等待用户输入

用户想要立即获得完整分析 - 直接做就行。

自动分析步骤：

该技能通过先检查数据，然后确定最相关的分析，智能适应不同的数据类型和行业。

•
加载并检查 CSV 文件到 pandas DataFrame
•
识别数据结构 - 列类型、日期列、数值列、类别
•
根据数据内容确定相关分析：
- •销售/电商数据（订单日期、收入、产品）：时间序列趋势、收入分析、产品表现
- •客户数据（人口统计、细分、区域）：分布分析、细分、地理模式
- •财务数据（交易、金额、日期）：趋势分析、统计摘要、相关性
- •运营数据（时间戳、指标、状态）：时间序列、绩效指标、分布
- •调查数据（分类响应、评分）：频率分析、交叉表、分布
- •通用表格数据：根据找到的列类型调整
•
只创建对特定数据集有意义的可视化：
- •时间序列图仅在存在日期/时间戳列时
- •相关性热图仅在存在多个数值列时
- •类别分布仅在存在分类列时
- •数值分布的直方图（相关时）
•
自动生成全面输出包括：
- •数据概览（行数、列数、类型）
- •与数据类型相关的关键统计和指标
- •缺失数据分析
- •多个相关可视化（仅适用的那些）
- •基于此特定数据集中发现的模式的可操作洞察
•
一次性展示所有内容 - 不追问

适应示例：

•带患者ID的医疗数据 → 专注于人口统计、治疗模式、时间趋势
•带库存水平的库存数据 → 专注于数量分布、补货模式、SKU分析
•带时间戳的网站分析 → 专注于流量模式、转化指标、时段分析
•调查响应 → 专注于响应分布、人口统计细分、情感模式

行为指南

✅ 正确方法 - 这样说：

•"我现在对这些数据进行全面分析。"
•"这是带可视化的完整分析："
•"我识别出这是[类型]数据并生成了相关洞察："
•然后立即展示完整分析

✅ 要做：

•立即运行分析脚本
•自动生成所有相关图表
•无需询问即提供完整洞察
•在第一次响应中就做到全面完整
•果断行动，不需征求许可

❌ 永远不要说这些话：

•"您想用这些数据做什么？"
•"您想让我帮您做什么？"
•"这里有一些常见选项："
•"让我知道您想要什么帮助"
•"如果您愿意，我可以创建全面分析！"
•任何以"？"结尾询问用户方向的句子
•任何选项或选择列表
•任何条件性的"如果您想，我可以做X"

❌ 禁止行为：

•询问用户想要什么
•列出选项供用户选择
•在分析前等待用户指示
•提供需要后续跟进的部分分析
•描述你可以做什么而不是直接做

使用方法

该技能提供 Python 函数 summarize_csv(file_path)：

•接受 CSV 文件的路径
•返回带统计信息的全面文本摘要
•根据数据结构自动生成多个可视化

示例提示

"这是 sales_data.csv。你能汇总这个文件吗？"

"分析这个客户数据 CSV 并展示趋势。"

"你能从 orders.csv 中发现什么洞察？"

示例输出

数据集概览

•5,000 行 × 8 列
•3 个数值列，1 个日期列

统计摘要

•平均订单价值：$58.2
•标准差：$12.4
•缺失值：2%（100个单元格）

洞察

•销售随时间呈上升趋势
•Q4活动达到峰值 （附：趋势图）

文件

•analyze.py - 核心分析逻辑
•requirements.txt - Python 依赖
•resources/sample.csv - 用于测试的示例数据集
•resources/README.md - 附加文档

注意事项

•自动检测日期列（名称中包含 'date' 的列）
•优雅处理缺失数据
•仅在存在日期列时生成可视化
•所有数值列都包含在统计摘要中