開発日報 Vol.001 – データ精度向上とレポート設計

1. コード修正・エラー対応

本日は、データ処理時に発生した SettingWithCopyWarning の対応を行いました。この警告は、Pandasの map を使用してデータを変換する際に発生することがあり、 .loc を用いることで回避できることを確認しました。

また、予約データの分析において、一部のカテゴリを対象外とする処理を実装しました。さらに、年度ごとの稼働率を算出し、キャンセルを含む・含まないパターンでの比較分析を進めました。これにより、稼働率の推移を視覚的に把握できるようになりました。

2. 休日データの管理方法の検討

稼働率をより正確に算出するため、休日データの管理方法について検討を行いました。現在の年間休日は約100日であり、そのうち土曜日が50日を占めています。加えて、GW・お盆・冬休みなどの特定の休暇期間も考慮する必要があります。

管理方法として以下の選択肢を比較しました。

  1. 辞書で管理:手軽に実装可能だが、毎年の更新が必要。
  2. データベースで管理:永続的に利用可能だが、初期構築が必要。
  3. CSVファイルで管理(過去4年分を作成):データの更新が容易で、まずはこの方法を採用。

この休日データを is_holiday フラグとして予約データと結合し、休日ごとの稼働率を算出する仕組みを構築しました。

3. JupyterLab を活用したレポート作成

データ分析のため、JupyterLab 上でレポートを作成する方針を決定しました。基本的な構成として、以下の項目を設定しました。

(1) 売上

  • 前年比
  • 部屋別
  • 予約サイト別
  • 都道府県別

(2) 組数(予約数)

  • 前年比
  • 部屋別
  • 予約サイト別
  • 都道府県別

(3) 単価

  • 前年比
  • 部屋別
  • 予約サイト別
  • 都道府県別

(4) 人数(大人・子供)

  • 前年比
  • 部屋別
  • 予約サイト別
  • 都道府県別

(5) 稼働率

  • 前年比
  • 部屋別
  • 予約サイト別
  • 都道府県別

可視化には Matplotlib や Seaborn を活用し、データの傾向を直感的に把握できるように設計しました。

4. 今後の進め方

  1. JupyterLab でレポートを作成し、最低限のデータをもとに動作確認を行う。
  2. 休日データ(CSV)をもとに休日の稼働率を算出。
  3. データの正確性を検証し、必要に応じて修正。
  4. 可視化の強化(売上・稼働率などのトレンドを見やすく)。
  5. 将来的にデータベース管理への移行を検討。

本日は、稼働率の計算精度を高めるためのデータ管理と、レポート作成の基本構成を決定することができました。次回は、実際のデータを用いて分析を進め、より実用的なレポートを完成させる予定です。

タイトルとURLをコピーしました