平均値の利用は自明なのか?
弊社では,データサイエンスのトレーニングサービスを提供することがあります.その中で,統計量の説明を試みようとする際,自然な流れとして平均値の話から始めることになります.
この話をする時,毎回「平均値の説明ってわざわざ必要なのか…?あまりにも当たり前のことを喋っていないか…?」と自問し,何となく気後れして「さらっと」触れるだけで,すぐ次の話題に入ってしまっているように感じています.平均値そのものの説明がしたいというよりは,平均値だけでは事象を捉えられない,という話題の前フリのために入れているつもりなのですが…
しかし立ち止まって,この記事ではそもそも観測値を確率変数と捉えて,平均値やその他の統計量を代表として用いるという思考は,人間にとって自明なことなのか? という問題を考えてみます(といっても,大した話ではありません.No big deelです).
折しも2021年度に中学校の学習指導要領が改訂されたらしく,文科省の資料から引用すると,
必要なデータを収集・分析し、その傾向を踏まえて課題を解決するための統計教育の充実(小:算数、中:数学)
が,改定のポイントとして挙げられていました.さらに調べてみると,例えば数学の学習指導要領(初めて読みました)では,
…集団の中における位置は,分布の状況に影響されるので,平均値だけで判断することは適切でない場合がある…
という記述に続いて,分布を確認することも生徒に促すべし,というような内容に触れています.
2021年度からの改訂とはいえ,上記の内容は中学校1年生で扱われる(平均値そのものは小学生から扱う)ようなので,この思考の様式は社会人にとっては当たり前すぎて,わざわざレクチャーするようなことではないか…とも思います.1
一方で,こちらの本に,興味深い記述がありました.以下に引用します.
…1個の未知量の推定値として,観測値の算術平均を用いるということは,おそくとも17世紀後半には行われており,…
…算術平均をとる理由あるいは根拠が何であったのか,筆者には明らかでないが,1775年[引用者注:1755年か]にシンプソン(T.Simpson,1710-1761)が王立学会(the Royal Society of London)会長にあてた手紙は興味深い…
そして,これに続いてシンプソンの手紙の訳が引用されています.このシンプソンというのは,シンプソンの公式に名前が残る人物ですが,引用文中の手紙はWebで閲覧することができます.2
It is well known to your Loadship, that the method practiced by astronomers, in order to diminish the errors arising from the imperfections of instruments, and of the organs of sense, by taking the mean of several observations, has not been to generally received, but the some persons, of considerable note, have been of opinion, and even publickly maintained, that one single observation, taken with due care, was as much to be relied on as the mean of a great number.
以下はDeepl翻訳ですが,
シンプソンのいう著名人(persons of considerable note)が,当時の社会でどのような立場の人々だったのかは不明です.科学的な教育をあまり受けていなかったのかもしれませんし,観測してデータを取得するという営みそのものが,現代よりハードルが高かった可能性を考慮すべきかもしれません.
引用本はまさしく標本平均と母平均の差に関する定理である中心極限定理を主題とするものですが,このあたりの数学的な基礎づけは20世紀に入ってからなされるわけで,18世紀半ば時点での"常識"が,今と異なっていても驚くことではないのでしょう.
18世紀の天文学から現代に戻って,企業がデータ分析で扱うようなデジタル化されたデータの文脈で考えますが,「中心極限定理を知らなければ,観測値を平均値で代表させようという発想に至らない」とは思えません.ただ「目の前の事象は"たまたま"発生したもので,もう一度観測すれば別の値をとり得る」ことは,何らかの経験や訓練(あるいは偏見)があって,始めて受け入れられる言明だとは思います.さらにそこから進んで「積極的に複数のサンプルを取得し統計量に基づき何かを主張する」ことが身に付くまでには,それなりに時間がかかって当然なのかもしれない,とも思います.
ピアジェの認知発達理論によると,乳幼児は生後数ヶ月の間に,目に見えなくなったものが永続して存在し続けることを学ぶ(オブジェクトの永続性)らしく,そうなると「いないいないばぁ」で喜ぶようになる(モノが再び現れることを喜ぶ)らしいのですが,「いないいないばぁ」の間隔に乱数や何か分布が存在するとしても,それを評価することを自然に身につける赤子はきっと存在しないだろう…と,適当なことを言ったところで本記事は終わります.3