1. コード修正・エラー対応
本日は、データ処理時に発生した SettingWithCopyWarning
の対応を行いました。この警告は、Pandasの map
を使用してデータを変換する際に発生することがあり、 .loc
を用いることで回避できることを確認しました。
また、予約データの分析において、一部のカテゴリを対象外とする処理を実装しました。さらに、年度ごとの稼働率を算出し、キャンセルを含む・含まないパターンでの比較分析を進めました。これにより、稼働率の推移を視覚的に把握できるようになりました。
2. 休日データの管理方法の検討
稼働率をより正確に算出するため、休日データの管理方法について検討を行いました。現在の年間休日は約100日であり、そのうち土曜日が50日を占めています。加えて、GW・お盆・冬休みなどの特定の休暇期間も考慮する必要があります。
管理方法として以下の選択肢を比較しました。
- 辞書で管理:手軽に実装可能だが、毎年の更新が必要。
- データベースで管理:永続的に利用可能だが、初期構築が必要。
- CSVファイルで管理(過去4年分を作成):データの更新が容易で、まずはこの方法を採用。
この休日データを is_holiday
フラグとして予約データと結合し、休日ごとの稼働率を算出する仕組みを構築しました。
3. JupyterLab を活用したレポート作成
データ分析のため、JupyterLab 上でレポートを作成する方針を決定しました。基本的な構成として、以下の項目を設定しました。
(1) 売上
- 前年比
- 部屋別
- 予約サイト別
- 都道府県別
(2) 組数(予約数)
- 前年比
- 部屋別
- 予約サイト別
- 都道府県別
(3) 単価
- 前年比
- 部屋別
- 予約サイト別
- 都道府県別
(4) 人数(大人・子供)
- 前年比
- 部屋別
- 予約サイト別
- 都道府県別
(5) 稼働率
- 前年比
- 部屋別
- 予約サイト別
- 都道府県別
可視化には Matplotlib や Seaborn を活用し、データの傾向を直感的に把握できるように設計しました。
4. 今後の進め方
- JupyterLab でレポートを作成し、最低限のデータをもとに動作確認を行う。
- 休日データ(CSV)をもとに休日の稼働率を算出。
- データの正確性を検証し、必要に応じて修正。
- 可視化の強化(売上・稼働率などのトレンドを見やすく)。
- 将来的にデータベース管理への移行を検討。
本日は、稼働率の計算精度を高めるためのデータ管理と、レポート作成の基本構成を決定することができました。次回は、実際のデータを用いて分析を進め、より実用的なレポートを完成させる予定です。