第1章 データの理解とChatGPTの力
1 データに基づく問題解決プロセスとは? PPDACサイクルのフレーム
2 Problem(問題の定義)のステップ
3 Plan(分析計画の立案)のステップ
4 Data(データの整理・整形)のステップ
4.1 データクリーニング
4.2 分析目的に応じたデータ整形と再構造化
4.3 ChatGPTによるデータの整形と再構造化へのサポートの多様性と注意点
5 Analysis(データ分析の実践)のステップ
5.1 データの種類と分析手法
5.2 分析目的と分析手法
5.3 変数の数と分析手法
5.4 分析におけるChatGPTのサポートと役割
5.5 分析手法の選定と実行コードのサポート
5.6 結果の解釈と次の分析へのアドバイス
6 2つの事例で見るChatGPTとのデータ分析の実際
〜基本集計とグラフからのインサイト獲得〜
事例1 MLB打者の年間打撃データによる本塁打に繋がる打球の特性分析
事例2 4店舗での缶ビール購入者のPOS レシートデータの分析
Tips バレルゾーン
7 Conclusion(結論)のステップとChatGPT活用のポイント
8 第2章以降の構成
第2章 ChatGPTと学ぶ統計学基礎
1 ChatGPTでデータの分布を考える
2 表(度数分布表)によるデータの分布の理解
2.1 度数分布表を用いたデータの集計とChatGPTを用いたデータの理解
2.2 割合や累積による度数分布表の見方
Tips プログラムの知識がなくてもChatGPTを用いてデータ分析を実施
3 数値(基本統計量)によるデータの分布の理解
3.1 基本統計量で見るデータの分布とChatGPTを用いた1変量データの理解
3.2 データの分布の中心傾向をChatGPTで検証
3.3 データの分布のばらつきの大きさをChatGPTで検証
3.4 データの分布に関するその他の統計量をChatGPTで検証
4 ChatGPTで行う2変数におけるデータの関係性把握
4.1 質的データ×質的データのデータ分析、ChatGPTによる結果の解釈
4.2 量的データ×量的データのデータの分析、ChatGPTによる結果の解釈
4.3 量的データ×質的データのデータの分析
4.4 単回帰分析による傾向把握、重回帰分析への展開、ChatGPTによる結果の解釈
5 ChatGPTで推測統計の導入
5.1 母集団と標本、標本抽出のイメージをChatGPTを用いて理解
5.2 統計的推定の考え方とChatGPTを用いた事例
5.3 統計的仮説検定の考え方とChatGPTを用いた事例
第3章 データ分析と可視化
1 散布図行列(scattergram matrix)
1.1 散布図行列とは
1.2 散布図行列の描画例
1.3 散布図行列の読み取り方
Tips 層別分析
1.4 層別に可視化した散布図行列
Tips 相関行列とヒートマップの活用
2 ツリーマップ(Treemap)
3 サンバーストチャート(Sunburst Chart)
4 サンキ−ダイアグラム(Sankey Diagram)
5 まとめ
第4章 データサイエンスの基本モデル活用
〜重回帰分析、主成分分析、クラスタリングを用いた探究事例を例にして〜
1 多変量解析と機械学習の基礎
1.1 はじめに
1.2 機械学習の概要
1.3 教師あり学習
1.4 教師なし学習
2 重回帰分析を用いたスマートフォン価格の分析事例
2.1 特性要因図によるビジネス課題の把握
2.2 回帰モデルによるデータ分析
2.3 重回帰分析の基本的な理解
2.4 ChatGPTを用いた重回帰分析の実装手順
2.5 残差の分析
3 主成分分析を用いた企業の財務分析事例
3.1 主成分分析を用いた新たな指標(特徴量)の構築
3.2 主成分分析に関連する重要な概念
Tips 分析結果をExcelやCSVに出力する方法
4 クラスタリングを用いたアンケート分析事例
4.1 クラスタリングの概要
4.2 階層的クラスタリング
4.3 k-means法
4.4 階層的クラスタリングおよびk-means法の実装
5 まとめ
第5章 検証のためのPythonを用いたコーディング環境構築入門
1 コーディング環境を整える
1.1 Google colabのインストール
1.2 Google colabファイルの作成と保存
2 分析データファイルのアップロードと読み込み
2.1 Google Drive上にデータファイルをアップロードする方法
2.2 Google colabのファイルにデータファイルをアップロードする
2.3 アップロードしたファイルの読み込み
3 体力測定データの分析
3.1 「ステップ1:データの読み込みと確認」
Tips プログラミングにおける変数と組み込み関数
3.2 「ステップ2:男女ごとの平均値を計算して確認」
3.3 「 ステップ3:可視化−男女ごとの分布(ボックスプロット)」
Tips for文の繰り返し処理
3.4 「ステップ4:男女ごとの平均値を計算して確認」
Tips if文による条件分岐
4 GitHub公開データセットの活用:フィギュアスケートのジャンプの分析プロジェクト
4.1 フィギュアスケートデータセットのダウンロード
4.2 データの読み込みと前処理
4.3 可視化と分析
5 まとめ
第6章 データ倫理とデータ分析でのChatGPT使用上の注意点
1 本章の内容と構成
2 データ倫理とAIリスクの理解
2.1 データ倫理の基本構成と重要性
2.2 AIリスクの理解
Tips ChatGPTの「データ再学習禁止モード」の設定方法
3 データ分析でのChatGPTの活用における留意点
3.1 ChatGPTの利便性とリスク
3.2 再現性とデータ分析における活用
4 まとめ