データの属性、実体、構造、尺度

データとはコンピューターで処理できる数のこと
定食
データ属性とは食器のようなもので、データ実体は、その器に入れる飲み物や食べ物のこと。データ構造は、複数の器を並べた定食セットのようなものである。

データ、属性、実体、構造

まず、用語について定義をしておこう。
データ構造のような概念論を扱う場合や、システム要件定義を行う場合、最初に用語の定義をしなければいけない。用語の定義は道路標識のようなもの。読者が、何度読み返しても迷わず結論に至ることができるようにするための道標として用意する。
これらの定義は、国語辞典とは少し違うことを、あらかじめご了承いただきたい。
データ
コンピューターで処理できる数のこと。
データ属性
個々のデータに備わっている性質のこと。ここでは単に「属性」と呼ぶことがある。
データ実体
個々のデータそのものこと。コンピュータ内部ではデジタル値として保管・処理される。ここでは単に「実体」と呼ぶことがある。
データ構造
複数のデータの並べ方、整理の仕方のこと。ここでは単に「構造」と呼ぶことがある。
情報
ある目的のためにデータを処理・加工したもの。
デジタル値
1,2,3‥‥のように飛び飛びの(離散的な)値を意味する。対義語として、連続的な値をアナログ値と呼ぶ。

数の概念

では、とは何か――これを定義するのは、たいへん難しい。
ここでは、数学で学んだ「数の概念」をもって定義の代用にする。
数の概念
複素数実数有理数整数自然数$ 1,\ 2,\ 3 $
ゼロ$ 0 $
負の整数$ -1,\ -2,\ -3 $
有限小数分数$ 0.5,\ \displaystyle \frac{3}{4} $
循環小数$ \displaystyle \frac{1}{4} $
無理数無限小数$ \sqrt{2},\ \pi,\ \log{2} $
虚数$ 3i,\ -5i $
コンピュータは、これらの数を全て扱うことができる。
あとで述べるが、文字や画像、音声なども、ゼロを含む自然数に変換することで取り扱うことができるようになっている。

データの尺度

スタンレー・スティーブンズ
スタンレー・スティーブンズ
数の概念とは別に、アメリカの心理学者スタンレー・スティーブンズが、1946年(昭和21年)に、データには4つの尺度があるとして、"On the Theory of Scales of Measurement" という論文を発表した。4つの尺度とは――。
尺度 定義 使える統計量
名義尺度 他と識別したり分類するためのもの。 男女, 血液型, 郵便番号, 住所, 所属, 社員番号 各ケースの数, 計数, 頻度, 最頻値, 連関係数
順序尺度 順序や大小には意味があるが間隔には意味がない。したがってデータ同士の演算はできない。 1位・2位・3位…, がんのステージ分類におけるステージI・II・III・IV 中央値, パーセンタイル
間隔尺度 目盛が等間隔になっており、その間隔に意味があるもの。ただし比率には意味がない。たとえば、気温が19℃から1℃上昇すると20℃になるとは言えるが、10℃から20℃に上昇したとき、2倍になったとはいえない。 気温, 西暦, テストの点数 平均値, 標準偏差, 順位相関係数, 相関係数
比例尺度 0が原点であり、間隔と比率に意味があるもの。 身長, 速度, 睡眠時間, 値段, 給料, 幅跳びの記録 変動係数
これらの4つの尺度を、2つのグループに分けることがある。
  • 質的データ‥‥名義尺度、順序尺度。データが離散的であることから離散データとも。
  • 量的データ‥‥間隔尺度、比例尺度。データが連続的であることから連続データとも。
データ処理や機械学習を行う際、同じデータ構造に異なるデータ尺度が混在しないよう注意が必要だ。
(この項おわり)
header