データ分析・可視化

Name: data-analysis
Rating: 62
Author: take566

クイックスタート

pandas 基本操作

python

import pandas as pd

# 読み込み
df = pd.read_csv("data.csv")

# 基本統計
print(df.describe())

# フィルタリング
filtered = df[df["status"] == "active"]

# グループ集計
summary = df.groupby("category")["amount"].sum()

BigQuery クエリ

sql

SELECT
    DATE(created_at) AS date,
    COUNT(*) AS count,
    SUM(amount) AS total
FROM `project.dataset.orders`
WHERE created_at >= '2025-01-01'
GROUP BY date
ORDER BY date

分析フロー

•データ収集: DB、API、ファイルから取得
•データクリーニング: 欠損値、異常値処理
•探索的分析: 傾向、分布、相関の把握
•集計・加工: 必要な指標を算出
•可視化: グラフ、ダッシュボード作成
•レポート: 結果のまとめ

詳細ガイド

•pandas操作: reference/pandas.md
•SQL・BigQuery: reference/sql.md
•可視化: reference/visualization.md
•統計分析: reference/statistics.md

ユーティリティスクリプト

bash

# データプロファイリング
python scripts/profile_data.py data.csv

# SQLクエリ実行・CSV出力
python scripts/query_to_csv.py query.sql output.csv

# レポート生成
python scripts/generate_report.py --input data.csv --output report.html

ワークフロー: データ分析

code

進捗チェックリスト:
- [ ] 1. 目的・KPIの明確化
- [ ] 2. データソース特定・収集
- [ ] 3. データクリーニング
- [ ] 4. 探索的データ分析（EDA）
- [ ] 5. 詳細分析・仮説検証
- [ ] 6. 可視化・レポート作成
- [ ] 7. 結論・提言のまとめ