不動産統計データ予測・補完 Skill
このSkillは、カテゴリ特徴量が多く、データ件数が限られている不動産取引データに対して、高精度かつ堅牢な予測モデルを構築するための専門知識を提供します。
1. 推奨モデルとライブラリ
大規模な計算リソースを必要とせず、実装コストを最小化するために以下のライブラリを活用します:
- •CatBoost: カテゴリ特徴量の処理(Target Encoding等)を内部で自動で行い、パラメータ調整なしでも高い性能を発揮します。小規模データでの過学習抑制に優れています。
- •Scikit-learn: 前処理パイプライン、時系列交差検証(
TimeSeriesSplit)に使用します。 - •Optuna: モデルのハイパーパラメータ探索を自動化し、実装工数を削減します。
2. カテゴリ特徴量の処理
不動産データに多いカテゴリ変数に対して、以下の戦略を提案します:
- •変換コード(Label Encoding)ではなく、カテゴリをそのまま扱えるCatBoostを優先的に使用します。
- •緯度・経度や駅名など、空間的な繋がりを持つ特徴量の相互作用を考慮します。
3. 時系列検証設計 (Validation Design)
複数年度のデータがある場合、未来のデータで過去を予測しないよう、正確な検証を行います:
- •TimeSeriesSplit: 時系列の順序を維持したまま交差検証を行い、モデルの汎化性能を正しく評価します。
- •Hold-out: 直近の数ヶ月または最終年度をテストデータとして分離し、最終的な性能確認を行います。
4. 過学習防止 (Anti-Overfitting)
- •Early Stopping: バリデーションエラーが改善しなくなった時点で学習を停止します。
- •正規化: 木の深さの制限や、L2正則化パラメータを適切に設定します。
- •特徴量選択: 寄与度の低い特徴量を削除し、モデルをシンプルに保ちます。
利用方法の例
/real-estate-ml 坪単価をターゲットとしたCatBoostの学習スクリプトを生成して。時系列交差検証を含めてください。
/real-estate-ml 少ないデータ件数で過学習を防ぐための、ハイパーパラメータの探索範囲(Optuna用)を提案して。
ワークフローのヒント
- •Explore: データの分布と欠損率を確認します。
- •Plan: 特徴量エンジニアリングと検証戦略を決定します。
- •Implement: スクリプトを作成し、テストを実行します。
Pythonコーディング
必ず python-pro スキルを同時に参照し実装を行ってください。