データ集計とデータ分析の違い(私見)。

今年度は仕事でコツコツと「心理学研究法」という授業の資料を作っていて,やっとこの年末に15回分のうち14回目まで出来あがって終わりが見えてきました。
「研究法」なのだけど,仕事依頼のうちで,卒論生がアンケート調査した後の処理が全然なっていない*1ので,

  • アンケートデータ入力のやり方とか,
  • ファイル形式の話とか,
  • フリーの統計ソフトの紹介(使い方?)*2等々

内容に入れて欲しいというご意見をいただいていたので,作成に着手する初期段階計画では,
(1)質問紙調査後のデータ処理(整理と入力)と記述統計
(2)推測統計
(1)と(2)をそれぞれ1回分ずつ割り当てるというざっくりした予定にしていましたが・・・
さて着手してみると,結構(1)の前半「質問紙調査後のデータ処理(整理と入力)」で尺度の水準の話をしたくなったり,あれやこれや細かい話が盛り込まれて当初の予想よりも膨れ上がってきました。このままでは(1)の後半「記述統計」のうちクロス集計は次の回にやらないとアンバランスになるということで,2回分の配分は,
(new1)質問紙調査後のデータ処理(整理と入力),データ集計
(new2)データ分析
ということに決めなおして,具体的内容の作成を続けました。

記事タイトルの内容を書きたいがための前置きがここまでずいぶん長くなってしまいました。

(new2)を作り始めるにあたって,なんとなく「データ分析」って題してしまったけれど,(new1)の「データ処理」および「データ集計」との違いは何か?ということにぶつかってしまいました。
「データ処理」については,データを統計処理できるまでの下準備段階(質問票にナンバリングしたり,コーディングしたりデータ入力したり)なのが(データ分析とは)違う,と明快に説明できるかなと思うのですが,「データ集計」と「データ分析」の違いはどう言語化したら・・・ともやもやしてしまいました。
なんかヒントはないかなと,Googleの検索窓に適当な言葉を入れて検索していたら,このページを見つけました。
www.dsk-cloud.com
「全体像を把握するためのデータ分析」「比較して判断するためのデータ分析」「仮説を検証するためのデータ分析」という見出しを見て,
ああそうか,
「データ集計」はそれぞれ1つずつの変数の状態を要約する統計処理で
「データ分析」は2つ(複数)の変数間の関係性についての統計処理

という感じだよね,とイメージが固まりました。

初期案のように(「推測統計」と対比して)「記述統計」と表現してしまうと,1変数について要約する方法(度数分布表,代表値と散布度)と,2変数間の関係性について表現する方法(相関係数,クロス集計,平均値の比較)ともに含むという感じになってしまいそうで。

ということで,
(new1)では「データ集計」は「単純集計」とも呼び,「数値の羅列である入力データを整理し,要約する」方法,度数分布表(質的データ・量的データそれぞれについての作り方byピボットテーブル)と代表値と散布度(Excel関数で求める方法も紹介)を扱い,
(new2)では導入として,研究アプローチには「記述的」「相関的」「操作的(すなわち実験法)」ってあったよねと示した上で,

  • 記述的アプローチ→ 度数分布表,代表値と散布度を求めるデータ集計によりかなり達成できる
  • 相関的・操作的アプローチ→ 相関的研究・操作的研究ともに,データ集計では1つ1つの変数についての結果しか得られないため,2つの変数(事象)の関係性(相関関係や因果関係)を調べることはできない,2つ(以上)の変数の関係性を調べる必要性あり

その,2つ(以上)の変数の関係性を調べることがデータ分析としてここからの話をすすめるよ!として,クロス集計と平均値の比較に進む作りにしてみました。

*1:ガチ心理学の学部学科でないので,結果的には「認定心理士」は取れるレベルではあるけれども,体系的な心理学訓練という点ではいまいちなのかもしれない。

*2:授業資料作成後数年間は大幅な更新ができないので,情報の移り変わりが激しそうなこの内容は入れられないなと判断。