『データサイエンス入門』――統計学や確率論には限界がある

竹村彰通=著
表紙 データサイエンス入門
著者 竹村 彰通
出版社 岩波書店
サイズ 新書
発売日 2018年04月23日頃
価格 880円(税込)
ISBN 9784004317135
ビッグデータの扱いは分析において注意すべき点は、ビッグデータが持つバイアスである。(53ページ)

概要

著者は、滋賀大学データサイエンス教育研究センター長で、数理統計学がご専門の竹村彰通さん。データ構造に関わるプログラミング技術を整理しているところで、復習の意味で本書を買った。
ビッグデータや人工知能(機械学習)といった流行の基盤にデータサイエンスがあることを紹介し、非科学的なデータの羅列に騙されないよう統計学や確率論に限界があることにも触れており、理系の方にも文系の方にも、入門書としておすすめする。

レビュー

冒頭で、「データ処理、データ分析、価値創造の3つの要素をデータサイエンスの3要素と呼ぶ」「データサイエンスは機械学習によるビッグデータからの価値創造ということもできる」(2ページ)と定義する。
質の良いデータが大量に得られれば、機械学習が良い性能を発揮する。プログラマの多くが認識しているところではあるが、逆に考えると、偏ったデータを大量に与えれば、AIの判断も偏ったものになる。これがAIの落とし穴である。

話は大数法則や正規分布、中心極限定理へと続くが、高校数学で苦労した人も、どうか頑張って読んでいってほしい。また、統計を技術(How-To)として覚えた人も、基本法則や定理を思い起こしてほしい。

第2章では、データに「間隔尺度」と「順序尺度」があることを紹介している。プログラムでデータを扱う場合、型宣言などのデータ属性の定義を行うが、これと関係する。
そして、「ビッグデータの扱いは分析において注意すべき点は、ビッグデータが持つバイアスである」(53ページ)と指摘する。多くの場合、ビッグデータは集めやすいデータ集合だからである。

相関関係と因果関係の違いについても説明している。わかりやすい例として、Twitterでも話題になった2017年7月22日に放送されたNHKスペシャル「AIに聞いてみた どうすんのよ!? ニッポン」を取り上げている。
竹村さんは、データに基づく意志決定は可能であるとしながらも、人間の五感で得られる情報を全てデータ化できているわけではないから、「『経験と勘に基づく』意志決定を、相反するものと考えることは誤り」(89ページ)「十分なデータがあれば唯一の合理的な判断ができるという考え方も正しくない。それはデータがあっても将来の不確実性が大きい場合があるから」(90ページ)と指摘する。

付録として、統計学周辺やコンピュータの歴史が述べられている。どんな学問を学ぶにしても、歴史を振り返っておくことは大切だ。
「おわりに」では、本書で触れていない最新の情勢を羅列している。IPAがデータサイエンティストとのスキルを盛り込んだ「ITSS+」を公表していることは未見であった。
(2018年07月10日 読了)
(この項おわり)
header