みなか先生といっしょに統計学の王国を歩いてみよう 情報の海と推論の山を越える翼をアナタに!

ネットで本書の目次に「Ⅱ 統計王国への参道 6. 自由度とは何か」とあるのを見て,題名や目次から見ると”くだけた”書き方をしている中で「自由度」をどのように解説しているのか興味をもって読んでみました。
自由度の話もすごくよかったけれど,他にもあちこちイキイキとした書き方で,読んでいてニヤニヤしてしまいました。
ニヤニヤしたところのハイライトを抜粋します。

p.32
私たち人間は生物として進化してきた過程で,ばらつきをもつ情報をよりどころにして不確定な状況での意思決定をする認知能力を備えるようになったと考えられます。本章で私が強調したデータの可視化の可能性は,細かい統計計算をする前に情報を視覚化することにより,私たち誰もが人間としてももともともっている認知能力をデータ解析という作業のはじめにきちんと認めようという点にありました。

モデルは心のなかにある
pp.63-64
観察データの背後には不可視の本質があるという信念は心理学的本質主義とよばれています。私たちが想定するモデルは観察データを説明するための「心理的本質」を可視化しているとみなすならば,心理的本質主義の観点から統計学における「説明」の意味がすっきりと理解できます。
私たちはもともとばらつきをもったデータ点を一つひとつ別々に理解することはありません。むしろ,データセットの全体を一挙に説明できる共通要因(心理的本質)を仮定し,その共通要因を通してより単純な説明を試みます。
データ解析における「モデル」はまさにこの要求に応えているといえるでしょう。
複雑な現実を単純なモデルによって説明しようとするのは私たちの側の事情であって,現実世界が単純であるからとは決していえまん。むしろ,私たちのもつ認知的特性と整合性の良い単純なモデルによる説明を妥当なものとして受け入れていると考えるべきでしょう。

SEMで導き出したモデル図を見て,もやっとした気持ちになるのって,こういうことなんだろうね。
その筆者の感覚とこちらの感覚にズレがあるときにもやっとするんだろうね。

さてもともと読みたかった自由度についての記述も抜粋します。同じようなことは何度か他のところで読んでいるはずなのですが,本書の著者先生の書き方ですっきりしました。

妥当な補正法としての不偏分散
pp.91-92
母集団から無作為に抽出された標本(データ数をnとしましょう)は互いに無関係なので,平均を計算する際にデータの総和をデータ数nで割り算して”真ん中”を決めるのは全く問題ありません。
しかし,平方和の場合はそうはいきません。前回説明したように,無作為抽出された標本から計算された偏差の総和はゼロになってしまいます。
したがって,n個のデータから計算されたn個の偏差のうち,いずれか1つは他のn-1個の偏差によって決定されてしまいます。見かけはn個の偏差がありますが,実際に”自由”に値がとれる偏差はn-1個しかありません。この「n-1」という値こそが,平方和のもつ自由度というわけです。要するに,平方和をデータ数nで割るのは”割り過ぎ”ということです。図6-2Aが示すように,「平方和÷データ数(n)」が真の値に対して常に「過小推定」の傾向がある原因はここにあります。
「平方和÷自由度(n-1)」で定義される値を不偏分散とよびます。その意味は分散(variance)の偏りのない推定値ということです。図6-2Bからわかるように,私たちは,母集団から抽出されたサンプルに基づいてこの不偏分散を計算することにより,母集団の真のばらつきを偏りなく推定することができます。パラメトリック統計学の理論によると,妥当な平方和の”補正法”は「平方和÷自由度(n-1)」であることが数学的に証明されているのですが,今回は数値シミュレーションを使ってその結果をみなさんに示しました。