みらいテックラボ

音声・画像認識や機械学習など, 週末プログラマである管理人が興味のある技術の紹介や実際にトライしてみた様子などメモしていく.

「分析者のためのデータ解釈学入門 データの本質をとらえる技術」の紹介

昨年10月頃から, 経産省がらみのAI人材育成プログラム「AI Quest 2020」を受講している.

signate.jp

AI Questは, 企業の実際の課題に基づくケーススタディを中心とした「実践的な学びの場」である.
具体的には, 適切なAI実装を実現するための業務プロセス設計などビジネス的側面の検討から, 実際のモデル構築, 企業幹部への導入提案シミュレーションまでを, 参加者同士がお互いにアイデアを試し, 学びあうようなプログラムになっている.

そこで, 昨年末に発売された本書も, 私にとってはちょうどタイムリーであり, 正月に読み始めた.
ところが, 途中から「AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出]」[1]を読み始めたため, 最近やっと読み終えた.



  目 次
第一部 データの性質に関する基礎知識
 第1章 観測は簡単ではない
 第2章 誤差とばらつき
 第3章 データに含まれるバイアス
 第4章 交絡因子と因果関係
 第5章 データサンプリングの方法論
第二部 データの分析に関する基礎知識
 第6章 データの扱い
 第7章 一変数データの振る舞い
 第8章 変数の間の関係を調べる
 第9章 多変量データを解釈する
 第10章 数理モデリングの要点
第三部 データの解釈・活用に関する基礎知識
 第11章 データ分析の罠
 第12章 データ解釈の罠
 第13章 データ活用の罠


本書では, データの分析技術だけでなく, データ分析を行う上で重要なデータの性質や解釈の仕方など, データサイエンティストとして必要な基礎知識がよくまとめられていると思う.
個人的には, 何冊か読んだデータ分析の入門書よりはずっとよかったし, データの利活用において気を付けなければいけない点をまとめた第三部などは学びが多かった.

内容的には, データサイエンティストを目指す学生や社会人, 経験の浅いデータサイエンティストの方にはお薦めであるが, 一点だけ不満がある.
それは, 著者が初学者向けに重要な箇所にやたらラインを引いているのだが, 私にとっては重要でない部分も多く, 少し目ざわりな感じがした.

----
参照URL:
[1] 「AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出]」の紹介 - みらいテックラボ