2015年4月20日月曜日

データの集め方

1知識ギャップの認識
2自分の情報源リストとのすり合わせ
3情報の獲得
4検証、判断
5伝達
6自分の情報源リストの整備

1自分の情報源リストの確認
2情報の収集
3入手した情報の検証判断
4依頼者に報告
5自分の情報源リストの更新


---------------------

情報の集め方
1)何のために
2)誰が
3)何を
4)どこから
5)どんな方法で
6)どの程度
7)いつ集めるか


集めた情報のその後
ROT
Redundant 余分
Obsolete 古い
Trivial 些末
ROTな(くだらない)データは捨ててしまえ



データの種類

ログデータ
意味のあるデータと意味のないデータが入り混じりやすい、玉石混淆になりやすい
その見分け方が難しい 周辺情報が必要だったり、多変量解析的に数学的に数字を分解しないと読み解くのが難しい(ただしこれはテクノロジーの進化で簡素化しやすい)


アンケートデータ
聴きたいことを聴いてる分、意味のあるデータが抽出されやすい
ただしこちらが聴きたいことと、回答者が思い描いたことが完全に一致しているかどうか?
アナログで抽象的な手順を踏む分、誤差要因が大きくなりやすい場合もある


脳科学データ
客観性、再現性に優れる
アンケートデータは回答者の主観、恣意に基づくデータ

(2008年1月、2013年3月メモ)

認知心理学会公開シンポジウムat京都女子大学

犯罪捜査の認知心理学
越智啓太

認知心理学とは
人間の記憶や思考、言語などの認知プロセスを科学的に解明する


認知心理学を犯罪捜査に最初に用いたのは
カール・グフタス・ユング
言語連想検査を使えばイケると思ったらしい

反応語と反応時間で判定する

弱点:被検者効果が出やすい
江戸川乱歩「心理試験」

一般用語を使用することで回避できそう


反応語と反応時間で判定するだけではちょっと心もとない

リッケン
CIT(GKT)を開発
ポリグラフ検査
脈拍などを計測する
カラダに出る再認テスト

情動が高まると吸えなくなる(呼吸が)

顔面サーモグラフィによるウソ発見

ドキドキすると毛細血管が収縮する
顔にいっぱい毛細血管がある
血が通らなくなる→温度にあらわれる

瞳孔サイズを用いるのもある


呼吸器検査なんかはちょっとぐらい動いても大丈夫

fMRI
うるさい
でかい
高い
20分じっとしてないといけない
犯罪捜査には使いにくい

NIRS
4000万円
脳の表面付近の血流だけが計測可能
再認くらいはいけるかも?


犯人=犯行の記憶を持っている人
だから認知心理が使える

防災の認知心理学
邑本俊亮
むらもと

災害時の認知バイアス

これくらいは普通だ
物事をふだんの範囲内で理解したい
正常性バイアス、正常化の偏見

自分だけは大丈夫
他人よりも自分の方が運がよい、と思いたい
(比較)楽観主義バイアス

前回大丈夫だったから
記憶の中で思い出しやすい情報に影響される
利用可能性ヒューリスティック

みんなと一緒に
他人に同調していれば安心
集団同調性バイアス、多数派同調性バイアス

~があるから大丈夫
自分以外のモノに頼りきってしまう
ハードウェアバイアス

ふだんは心理的安定に役立っている
しかしいざというときには逆効果



二重過程理論
直感的思考(システム1)
無意識的、すばやい、直感的

熟慮的思考(システム2)
意識的、遅い、熟慮的、論理的

緊急時には熟慮的思考は働きにくい


談話理解における既有知識の役割
太郎のレストランの話

太郎はレストランに入った。ステーキを注文した。
太郎は満足して店を出た。
 食べた、お金を払ったという記述はなくとも、
 そうしたんだろうと文脈から勝手に解釈する


発達プロセスの認知脳科学的解明
乾敏郎

予測と自己モニタリングシステム
like-meシステム 共有する表象
different-from-meシステム 他者のこころを読む
自閉症の脳内メカニズムと病因論




マグノセル
でかい早い
すぐに高次中枢までいって低次中枢でパルボセルと出会う

パルボセル
小さい遅い

自閉症の人は
マグノセルの組織化がうまくいってないから
絵のように物事を捉えてるから
隠し絵とか余裕
レインマンとかふつう


small world network
脳は近いところ同士でたくさんつながってるが
長いところ同士でつながってるのもあって
これが役立つ

自閉症はlocal networkが多すぎる
強すぎる、過敏なぶん
コミュニケーションがうまくいかない


たいが
妊娠3週まで
神経かんのときの異常がいろんなところに影響してるのでは?
自閉症スペクトラム

オキシトシン3ヶ月くらい投与で(自閉症の一部の機能が)改善した、という報告が最近あったらしい
平滑筋を収縮させる
子宮筋

GABAスイッチング
胎児興奮
大人抑制


「お客様」の心をつかむ商品開発
熊田孝恒

製品やサービスを利用しているときのお客様のこころを知る
これに認知心理学が役立つ、だろう

お客様は本当にニーズを知っているのか?

ニスベットとウィルソンの研究
4つのストッキング
品質がよいものを1つ選んでもらう
なぜそれを選んだのか理由を聞く
実際は全部同じ製品

右端選択率は左端の4倍
しかし理由で場所と答える人はいなかった
編み方がー薄さがーと答える


自分の行動や決定に関わる認知過程のはたらきを意識できない。
理由を問われると、もっともらしい回答をする

お客様がニーズを十分に把握しているとは考えにくいがさて?

心の中で起きていることを科学的に解明することに
認知心理学は貢献できる、だろう

認知機能は年齢とともに平均は低下し、
同時に個人差は大きくなる

すべての認知機能がいっせいに低下するわけではない
いろんなパターンがいる

なので年齢カットではなく、パターン別に
駅での行動をもとに、「わかりにくい」を改善しないといけない
注意機能低下、作業記憶低下、プランニング機能低下


注意機能低下群
直接目標物を探す
案内サインからは情報を取得しない、
過去の経験や駅の一般的な構造に関する知識を利用する

頻繁に情報を取得、確認はするものの、
同時並行に情報を得ることは難しい
(そもそも見てない)

プランニング機能低下群
案内板を見ることもあるが目的が不明確
具体的な情報を得られないことが多い
(見てるけど活用できてない)


他者のこころの認知と集団規範の生成
「暗黙のルール」はいかにして生まれるか
村本由紀子

多元的無知による規範の維持過程
集団内の人々が一定の心理・行動傾向を示すとき、その規定因となるのは、
個々人に内面化された価値や信念ではなく、むしろ、それらの価値や信念が
周囲の他者に共有されているという考えである

知覚された合意

(2014年10月メモ)

医学的根拠とは何か

津田敏秀「医学的根拠とは何か」

直感派(経験派と言い換えるとこれまた印象が変わる)
メカニズム派
数量化派

直感派:医師としての個人的な経験を重んじる
メカニズム派:生物学的研究の結果を重視する
数量化派:統計学の方法論を用いて、人間のデータを定量的に分析した結果を重視する。


メカニズム派
相関や因果関係は研究や経験からわかっているが、
「なぜ」そうなるかの理由・背景はよくわかんなかったり、
検定して有意差が出てるわけじゃない、検定してない、検定するほどのサンプルが集まってない
検定とかどうでもいいと思っている

数量化派
理由・背景とか知らんけど、研究やデータ、解析結果がこうでてるんだから、っていうのが
メカニズム派との違いかな。


ビッグデータの正体の、検索数のトレンドと疾患発生予測的な話。
どうつながって何故そうなるかまで解明してないで、ってやつ
因果関係からの脱却、相関がわかった時点でアクションしろってこと


でもこれでいくと、メカニズム派も数量化派も理由はわかってない、あるいは重視してない
ってことだね

経験派は自分で勝手に納得して、勝手に理由付けしてるってことか。

その理由を追求すべしと思ってるのがメカニズム派や旧来型の数量化派で
新進の数量化派は理由を追及する時間があるならアクションしろ、どうせ未来はすぐ変わるから
ってことかねえ。

「統計学的な有意差がない」ということと、「影響がない(放射線被ばくによるがんが発症しない)」ということは、まったく違う

(2014年1月メモ)

認知心理学会公開シンポジウムat京都大学

認知心理学における事実と虚構の打開

アイゼンク 1965
心理学における事実と虚構
Fact and Fiction in Phychology
行動主義者による精神分析批判

精神分析の解釈の仕方は偏ってるで、おかしいで、
にもかかわらず今も受け入れられている

楠見孝さん京大
アカデミック心理学を知らずとも、自身の経験に基づいて
人の心や社会についての叡智や洞察を持つ市民もいる

ここで研究者と市民にギャップが生じる

心理学が市民にとってややこしいこと
正解がひとつではない、いつも同じのが正解になるわけではない
常に正しいひとつの答えはない(不確定性という概念が理解されにくい)

対人関係にまつわる心理学的知識は自分の経験から習得できる
(子育てとかそうだよねー)


一方で脳や記憶(脳、発達、思考←認知心理学領域ばっかりじゃないか)なんてのになると
以下理由からギャップが大きい
 ポピュラー心理学が間違っている
 経験習得が難しい
 市民が焦点を当てていない


山田祐樹さん九大
好きと嫌いはその人の行動をよく予測する、かも
一方で好き嫌いはかなり複雑である

好きの種類
 好意 社会心理
 よさ ゲシタルト心理
 美しさ
 魅力(カワイイも含まれそう)
 快適さ 感性工学


嫌いを決めるもの
文脈
 注意が向かないものは嫌い、かも
低次知覚情報
 黒板のキー音とか
 集合体の気持ち悪い絵→空間周波数の情報が起因してるのかも

情動価
 無意識状態で形成されてるのかも
 (不快と意識してなくてもいやな状態のときは時間を長く感じる)

 不快なものは見てしまう(どうしても注意が向いてしまう)
 不快なものをずっと見せてたら(馴化したら)見なくなるっぽい

分類可能性
 アンドロイドが人間っぽいと不快になる 不気味の谷が存在するのは分類が難しいからかも
 カテゴリ化が曖昧なものは不快になりやすい
 雑食動物のジレンマ 食べられそうか食べられなさそうの判断が難しいものは食わず嫌いにつながってそう


身体状態
 身体特異性仮説casasanto2009
 右側快 左側不快(右利きの場合、左利きは別)
 上快 下不快(利き腕関係なし)


http://wired.jp/2010/05/07/%E5%A7%BF%E5%8B%A2%E3%81%AF%E5%BF%83%E3%81%AB%E5%BD%B1%E9%9F%BF%EF%BC%9A%E3%80%8C%E4%B8%8A%E5%90%91%E3%81%8D%E3%81%AF%E5%B9%B8%E3%81%9B%E3%81%AA%E8%A8%98%E6%86%B6%E3%80%8D/

http://umurausu.tumblr.com/post/33495570414

http://apophenia.wdfiles.com/local--files/start/Casasanto-EmbodimentOfAbstractConcepts.pdf


 でもこれって言語や文化的環境が影響してるのでは?

 いろんな言語の人で調べてみた
 どの言語圏でも上下は意見一致、右利きおける右相対優位もそう(左利きはサンプル少ないけども想定通りの結果)
 (言語は関係なく利き腕は関係してそう)

 物を持ち上げながら博物館見学してもらったら印象アップしたらしい

 流暢性、どちらのほうが体が動かしやすいかが関係してるのかも

 視覚探索だと右側優位で注意が向くそうな

嫌いにならないためのポイント
無視しない
無意識で不快なものをいっぱい見る(馴化させる)
空間周波数に気をつける(気をつけようがないかも)
分類しやすいように情報を足す
 閾下でのニオイの手がかりを出すと嫌いにならなくなった
身体状態を変える
 ポジション変えるとか、笑いながら行動するとか



乾さん京大
高次認知機能にも運動制御が重要

目で見た刺激、後頭葉で下処理した後
頭頂葉 位置を認識する
側頭葉 それが何であるかを認識する(物体認知)、
 ものの名前も側頭葉に記憶されている、怪我すると名前が出てこない、

前部、人の名前
まんなか、動物の名前
後ろ、道具の名前
名詞情報
 動詞や動作名詞は前頭葉の運動野に記憶されている


他者の動作を理解する
自分の運動実行に関わる脳部位が、他者の行為認識に関わっている
mirror neuron system(MNS)

他者の動作を見てるだけで活性化する運動ニューロンがある
しかもそれがブローカ野(言語中枢)にあったよ

今他者が何をやっているかを認識するときに自分の体に置き換えて見ている


イメージを作り操作する

後頭葉は外からの情報のときだけ反応してるわけではない
ものをイメージする(内なる情報)ときも反応している


jennifer aniston neuron
concept cell(文字でも反応するから。概念について機能するらしい)

海馬にあるニューロン
どんな顔や服装、角度で見せても反応する、文字で見せても反応する
ブラピと一緒のを見せると反応しない

halle berry neuron
cat womanを見せても反応する

(2013年10月メモ)

身近な統計at放送大学

■身近な統計第1回4/30
ナイチンゲール鶏のとさかグラフ
クリミア戦争従軍兵士の原因別死亡データのデータを集計して死亡率を計算、
グラフを考案、戦争ではなく、病院の不衛生さで死亡している兵士が多いことを実証、データによる説得、陸軍の衛生・保健医療改革

神の御心を知るには統計学を学ばなければならない
=目の前のことだけでなく,全体を知る必要がある

PPDACサイクル
problem 対策をとるべき問題の発見
plan 現状を測るためのデータ収集と分析計画
data 資料やデータの収集、記録、整理
analysis データの分析
conclusion&improve 結論のとりまとめと施策の提言
control&check 施策の実施管理と効果の評価

論より数字 勘より統計
統計の日10/18

international statistical literacy project
数字に関する知識・活用力普及の世界的取り組み
リテラシー(読み書きの基礎能力)から、数理リテラシー、統計リテラシーへ

統計数字(意味を持っている、単位のある数字)の知識と活用能力の育成
統計思考力
21世紀型ワークスタイル
身の回りの課題を統計的な問題に設定する能力
関連する資料、データ、情報の迅速な収集能力
データの分析能力
結果の効果的な情報発信能力

問題解決、知識発見型の総合情報処理能力
モノからカネ、サービスの計量分析的管理


統計=統べて計る
集団の大量観察
国や社会の姿を映し出す鏡 現在の状況の計測
進むべき方向を示す羅針盤 将来の到達点の予測
経済や社会の内部構造に迫り、そのメカニズムを解明する内視鏡 目標値への制御

statistics←state国家、語源は同じ
自然現象、モノの生産管理、輸送、収益管理、人的資源管理、経営、リスク管理など

データとは?客観的事実
データに基づく管理
KKD(勘経験度胸)からFACT CONTROLへ

情報とは?個人や組織の意思決定に役立つ
エビデンスに基づく
EBM,EBP,EBPD..
説明責任 evidence-based society

統計分析の考え方
データの見方
データの形式
データ分析の視点
全体のバラツキ(分布)の見方
 並べ替え、パレート(ABC)分析、ヒストグラムと箱ヒゲ図、基本統計の意味
関連性を測る
 散布図、相関係数、傾向線(回帰直線)、クロス集計表
時系列データの見方
統計的推測のロジック(推定・検定)


身近な統計第6回
変動係数 coefficient of variation

平均値が大きく違って、標準偏差が同じものを比較する
どちらがデータが偏ってるか?

実質的なデータのバラツキの大きさを評価する指標
相対標準偏差

CV=s/x(標準偏差÷平均) %表示
単位はない、測定単位が違うものを比較するのにも使える

単峰じゃないとか、歪んだ分布の時には変動係数は向いてないので
四分位分散係数を使う

四分位分散係数=四分位偏差÷中央値
四分位偏差=四分位範囲÷2
四分位範囲は第1四分位(25%点)~第3四分位(75%点)

両側の外れ値に引っ張られない範囲内でのデータのばらつきを見る

ローレンツ曲線 lorenz curve
分配の格差を示す、下に凸な弓形のグラフ

横軸に構成要素の度数の累積比率、縦軸に分配数量の累積比率をとる、
均等分配線に対して、ローレンツ曲線は下側に弓なりになる
格差最大の分配線と均等分配線の間をとる

それを計量化したものがジニ係数 gini's coefficient
格差の程度を数値で測る指標
(均等分配)0<=ジニ曲線<=1(格差最大)
均等分配線とローレンツ曲線の中の面積の2倍


身近な統計第7回
さまざまな確率
経験的確率
頻度に基づく確率で、数多くの繰り返しをおこなった場合の割合として求められる確率

数学的確率
場合の数による組み合わせ理論で導かれる確率

主観的確率
それぞれの人が考える主観的な信念あるいは信頼の度合いとして表される確率

確率変数
変数の取り得る値、または値の範囲に、それが生起する確率が確率分布として規定されている変数

確率分布
確率変数の取り得る値や値の区間に対して、それが生起する確率を示す関数

確率変数、公平なサイコロを振って出る目の数
確率分布 生起確率はどの目も1/6

離散型確率変数
離散的な値しか取らない確率変数
離散的な値について、その値を取る確率を考える

連続型確率変数
連続的な値を取る確率変数
値の種類が無限個あるので、値ごとに確率は考えない
値の起こりやすさは評価できる、確率密度を使用
値の区間に対して、確率を考える


身近な統計第8回
正規分布の下側確率を出す
normdist(x,μ,σ,1)

正規分布の%点を出すには
norminv(下側確率p,μ,σ)
下側確率がちょうどpとなるデータの値を返す

でも世の中には正規分布じゃないものも多々ある
そこで、歪んだ分布を変化することで正規分布モデルが利用できる

正規分布のデータを指数変換するとロングテール(右に歪んだ)な分布になる
指数変換y=e^x

逆は対数変換
x=logey
ロングテール分布のを対数変換すると正規分布にできる
どんな歪み方であれ、底eをいろいろ操作することで対象な分布にできる

↑こういうことができるから、正規分布がよく使われるアンド
中心極限定理
平均μ標準偏差σの同じ分布に従うn個の互いに独立な確率変数の合計や平均の分布は、nが大きければ、正規分布になる



身近な統計第10回
標準誤差standard error S.E.
標本分布の標準偏差
推定値の精度を評価する尺度
標準誤差が小さいほど、推定値が真値に近いことが確率的に期待できる

標準誤差もσの法則があてはまる
1.64の間にSEが入る確率90%の面積
1.96の間にSEが入る確率95%の面積
2.58の間にSEが入る確率99%の面積

標本誤差sampling error
推定値と真の値(母数)との差
信頼度を上げれば標本誤差は大きくなり、
信頼度を下げれば標本誤差は小さくなる



身近な統計第11回
統計的推測
標本から母集団に関する推測

統計的推定estimation
母集団の平均や比率を標本データから推定する
(推定誤差をコントロール)
→標準誤差、信頼区間

統計的仮説検定tests of significance
母集団の平均や比率に関する仮説を標本データから判断する
(判断ミスの確率をコントロール)
→有意水準(危険率)


2種類の過誤確率
第1種の過誤確率α あわてんぼうの誤り
帰無仮説が正しい時に、帰無仮説を棄却する過ちを犯す確率
ルールとして事前にコントロール(有意水準)

第2種の過誤確率β ぼんやりの誤り
帰無仮説が正しくない時に、帰無仮説を棄却しない過ちを犯す確率

2種類の過誤と有意水準
過誤の可能性(確率)は小さい方が望ましい
2種類の過誤確率を同時に小さくすることは不可能
(αを小さくすればβが大きくなる)
 過誤確率を一定水準まで認める立場を取る
  第1種の過誤の確率αを一定水準に設定する



身近な統計第12回
特化係数=部分集団の割合÷全体集団の割合
1に近い値:全体傾向と同じ
1から離れた値:行と列の組み合わせによる固有の効果



身近な統計第14回
時系列データの構成要素
傾向変動trend component トレンドT
循環変動cyclical component サイクルC
季節変動seasonal component シーズンS
不規則変動irregular component ノイズI

T,C,S,I系列 原系列:O

原系列データoriginal
加法モデルO=T+C+S+I
乗法モデルO=T*C*S*I

季節調整のための移動平均
季節パターンの周期と同じ項数の移動平均を取る
月別データ 12項移動平均
四半期別データ 4項移動平均
日別データ(週パターン) 7項移動平均

移動平均による季節調整
四半期ごとの入場者数を集計 原系列データO=T*C*S*I 
中心化移動平均系列を算出(SとIを平均で消している) T*C
四半期それぞれの特徴が出てくる(原系列/中心化移動平均)×100 S*I
四半期それぞれの平均を算出 平均S
四半期の合計が100になるように数値調節 季節指数S

季節調整済み系列=原系列/季節指数×100 T*C*I

見たいものを見やすくするために余分な情報を削る、それが季節調整



身近な統計第15回
統計学statistics
データを扱う科学
不確実性の数理、発見科学
社会や経済および自然界の状況や法則を表す数値データ
データの作成と分析、情報の読み取り方(方法)の総称

統計的思考力
不確実性をともなう諸現象を過去のデータのバラツキでとらえ、分布として記述し、解釈する力
分布に基づいた推測方式の概念を理解し、諸種の文脈(コンテキスト)のもとで実践的に応用する力
データの収集、データの記述、データに基づく推測という問題解決のプロセスを習得し、推測と具体的なアクションにつなげる力

統計学の重要な8つの概念
記述統計
データ 必要性とその特性
分布 バラツキの記述
基本統計量 分布の特徴の計量化

推測統計
モデル 確率分布モデル
標本とサンプリング 標本調査の仕組み
推測 標本誤差と仮説検定のロジック

連関・相関分析
関連性 変数間の関連性の分析

時系列分析
傾向 時系列データのパターンの把握

データdata
必要性とその特質
データ(統計)=客観的事実
情報公開時代、エビデンスに基づく意思決定

賢い統計情報の消費者
行政施策を正しく理解する責任ある市民
ビジネスにおける合理的な意思決定
 測る、予測する、制御する


統計的(科学的)問題解決の枠組み
data-based problem solving

課題(issue)からデータで解ける問題(problem)に
客観的評価指標Y(outcome)の設定
Yに関する現状分析(分布)
Yをコントロールするための要因Xの探索

XとYの関連性の分析(因果/連関/相関分析)
コントロールできるXを制御して、目的である指標Yの改善を図る


知識基盤社会における統計
データが簡単に手に入る
分析ツールが簡単に使用できる
判断すべき課題が身の回りにあふれている

統計的な思考力(統計的考え方、物の見方)が、確かな知識を創出する時代
論より数字、勘より統計(平成15年度統計の日ポスター標語)

(2013年6月メモ)

心理統計at放送大学

心理統計第1回
統計法とは
仕事の目的に応じて、対象を特定し、その対象の関心のある性質について
適切なデータを収集、調査して、これから必要な情報を導きだすための方法

データは、その種類、内容、調査の方法などによって、導きだせる情報が違う

統計(大辞林第二版の説明)
集団現象を数量的に把握すること。一定集団について、調査すべき事項を定め、その集団の性質、傾向を数量的に表すこと。

統計が扱う問題は、複数の個体で構成され、「明確に定義された」具体的な集団に関すること。

個体を集団として扱い、全体の性質を把握する。

仕事の目的に対応して、対象とする集団の個体の関心のある性質を
数量的に把握し、目的の達成に必要な情報を導きだす。

データから情報を導きだす方法
数える、分ける、ソート、並べる、比べる

DIKW
データdata symbol,message
情報information who,what,where,when
知識knowledge how
知恵wisdom why

gigo
ゴミデータからはゴミ情報しか出てこない
garbage in garbage out

心理学などの調査では、順序尺度データに等間隔を想定し、間隔尺度のデータとみなすことも。



心理統計第2回
スタージェスの公式
度数分布の区切り
n=20 m=5-6
n=40 m=6-7
n=80 m=7-8
n=160 m=8-9
n=320 m=9-10



心理統計第3回
通常の平均
相加平均、重心、算術平均とも
ただし外れ値の影響を受けやすい(全部足すから)

そこで
刈り込み平均 trimmed mean
スケートやスキーの採点と同じ
スコアが安定してるところだけとりだす

中央平均 midmean
中央の50%だけで平均を取る

ウインソー化平均 wintered mean
一番したの値、上の値と同じとみなして計算
データの個数は削除しない

幾何平均、調和平均、加重平均



中央値
平均ほどぶれない、外れ値の影響を受けにくい


最頻値
どこで区分するか(class化)で見え方も変わってくる


五数要約
five number summary
第0四分位数 最小値
第1四分位数 25%値
第2四分位数 中央値
第3四分位数 75%値
第4四分位数 最大値
箱ひげ図 box plot


歪度 わいど skewness
データの分布の非対称性
(対称からのズレ)

左にずれる(下に偏り) 歪度>0
右にずれる(上に偏り) 歪度<0
歪度=0 左右対称


尖度 せんど kurtosis
データの分布の尖り具合
中心的な位置に集中している程度

集中度低い 尖度<0
集中度高い 尖度>0
尖度=0 正規分布と同じ集中度



URT関数を使用すると、尖度を求めることができます。尖度は、複数以上のデータがある場合、データの分布の尖り具合を調べる時に使用します。
尖度は0を中心として、0より大きい値の場合には、平均値に近い値が多く含まれていることを表します。尖度が0より小さい値の場合には、平均値に近い値が少ないことを表します。

SKEW関数を使用すると、歪度を求めることができます。歪度は、複数以上のデータがある場合、データの分布の歪み具合を調べる時に使用します。
歪度は0を中心として、0より大きい値の場合には、平均値より大きい値が含まれていることを表し、歪度が大きければ大きいほど、かなり大きい値が含まれていることを表します。
同様に、歪度が0より小さい値の場合には、平均値より小さい値が含まれていることを表し、歪度が小さければ小さいほど、かなり小さい値が含まれていることを表します。




心理統計第4回
試行 trial
同じ条件で繰り返すことができ、それによって結果が決まる行為


事象 event
試行の結果で決まる事柄

確率事象 random event
常にではなく、ある割合で起こる事象
この、ある割合が確率 probability

ある事象が起こる可能性、起こりやすさ、確からしさを表す


ラプラスの原理(定義)
Laplace's principle / definition
理由不十分の法則
無差別の原理
サイコロの目が出る確率1/6
ある目が他の目より多く/少なく出る特別な理由がない

確率の古典的な定義
n件の事象(起こる可能が同じ)のうちのr通りで起こるなら、
その確率は r/n と考える

確率変数 probability variable
確率でその値が決まる変数
量的(連続的)な値 比率、間隔尺度
質的(離散的)な値 順序、名義尺度

確率分布 probability distribution
確率変数の値とその起こりやすさの対応関係
度数分布 frequency distribution
変数の値とその実際に「起こった」度数の対応関係


離散型変数 確率質量関数
連続型変数 確率密度関数

期待値 expected value variance
平均的に期待される値

確率分布の種類
離散型確率分布
 一様分布、二項分布、ポアソン分布、ベルヌーイ分布、超幾何分布、多項分布など

連続型確率分布
 一様分布、正規分布、指数分布、t分布、x2分布、F分布など

一様分布 uniform distribution 表か裏か、サイコロの目
ベルヌーイ試行 表headと裏tail、1と0、YesとNoのいずれかしか起こらない試行

二項分布 binomial distribution
パスカルの三角形

t分布 t distribution
正規分布にしたがう母集団の平均値の推定で、データ数が少ない場合
・2つの標本平均の差の検定
・標本平均値の信頼区間の推定

x2分布 chi-square distribution
適合性の検定
 観察された事象は、ある頻度分布に従っているか?
独立性の検定
 観察された2つの事象は、互いに独立しているか?
推測統計学で多く利用される確率分布のひとつ

F分布 F distribution
正規分布に従う2つの群の標準偏差が等しい、の検定
正規分布に従う複数の群の平均値が等しい、の検定など

正規分布 normal distribution
自然、社会、人文科学などを含む多くの現象で観察される分布
統計法でもっともよく使われるもっとも基本的な確率分布

大数の法則 law of large numbers
ある試行を互いに独立に繰り返したとき、実際に観測される事象の起きる割合(経験的確率)は、試行の回数を増やすにともなって理論的確率に近づく
(=標本の平均値が、変数の期待値に近づいていく)

正規分布の根拠
 中心極限定理 central limit theorem
 xiがどんな分布でもそれらが互いに独立であれば、y(xiの和や平均)は正規分布に近づく(現実にそうであるかどうかは議論の余地ありだがそういう前提でやってる)

 言い換えると、母集団がどんな分布に従っていても、
 そこから無作為に取り出した標本の平均値(や標本の総和)は正規分布に従う

e 自然対数の底、ネイピア数、オイラー数と呼ばれる超越数・無理数
e=2.71828..


標準正規分布 N(μ,σ2) 平均、標準偏差
μ±σ→68.26%
μ±2σ→95.44%
μ±3σ→99.74%
μ±1.96σ→95%

標準正規分布への変換 z-transformation
z=(x-μ)/σ


正規分布の重要な性質
独立した2つの正規分布する確率変数の和は正規分布する
nが大きいほど平均値のバラツキは小さくなる


心理統計第5回
検定統計量
 仮説を判断するための統計指標

算出する検定統計量に応じて、理論的な分布が異なってくる
t検定はt値を算出、t分布になる
F検定はF値を算出、F分布になる


心理統計第6回
1つの平均値の検定とは
1つの標本から得られた平均値を、母集団の平均値としてみなしてよいかを統計的に判断するもの

母集団分散が既知 標準正規分布で
母集団分散が未知 t分布で

心理統計第7回
t検定とは
平均値を比較する際に、特に2つの平均値の差の優位性の検定をおこなう方法のこと、標本の平均値を比較して母平均値に差があるかを推測している

心理統計第8回
決定係数=相関係数の二乗
一方の変量の変化を、他方の変量の変化で説明できる割合

相関係数は、相関の大きさではなく、強さを表す。
図で書いただけでは相関係数に違いがありそうだけども実は同じ、という例

相関係数の値は、対応のある2つの変量の間に、一次式で説明できる対応関係に従っている程度、を表す


心理統計第9回
相関係数はどのくらい信用していいの?
=標本相関係数は,母相関関係とどのくらい一致する?

標本の取り出し方によってrは変わる、が同じことを何度も繰り返せば
その値は0に近いことが多く、大きい値をとることは少ない

相関係数の有意性の検定をしてみよう
帰無仮説、母相関係数は0である
標本は、この仮説の元で無作為抽出されたかどうかを検定
無相関の検定
検定統計量
自由度n-2のt分布

母相関係数の信頼区間の推定
フィッシャーのz変換
信頼区間の下限と上限がプロットできて、rの値からそれを読み取る

順位づけはどのくらい似ているか?
完全一致は+1、正反対は-1
AとBの対象iの順位の積和
AとBの順位づけが同じとき、順位の積和は最大
AとBの順位づけが逆のとき、順位の積和は最小
最大値と最小値の平均値は0
順位の積和から平均値をひいて、最大値と最小値の幅の半分でわると
最大値が1、最小値が0になる
スピアマンの順位相関係数

順位相関係数は、対応する2つの変量の順序の対応性を指標化したもの

スピアマンの順位相関係数の問題点
nが大きいとき、n個の対象全体に順位をつけるのは難しい
その中の2つの対象の間に順序をつけるのはさほどむずかしくない

2つの順位が完全一致なら、係数の値は+1
2つの順位が正反対なら、係数の値は-1
係数の値は、-1と+1の間で、値の増加は、相関の増大を意味する
2つの順位が完全独立ならば、係数の値は0
ケンドールの順位相関係数
一致した数から、不一致の数を引く

どちらの順位相関係数も、偏差が正規分布することを仮定しない方法
ノンパラ



心理統計第10回
分散分析 分散の違いを分析して、平均の違いを検定している
t検定は、平均の違いだけではない
無相関検定 相関がない=0との違いを検定している
回帰係数の検定 0との違いを検定している

2つの値の差からこれらの違いを検定するのがt検定

複数の平均値の検定をt検定でやろうとすると検定力が下がる(検定力の劣化)
そこで分散分析

F=平均値間の分散÷誤差分散
F=1分子と分母の分散が同じ
F<1誤差分散の方が大きい
F>1平均値間の分散の方が大きい
じゃあどのくらい1よりも大きいのか?

分散を求める前に平方和と自由度を求める
自由度
データの数が多ければ多いだけ、ばらつきの幅は大きくなる
この数に応じた修正をしなければならない
修正に使われた数が自由度
データの数に依存して決まる値

平方和(ばらつき)
一群の各値からこれらの平均を引いた値の二乗和

バラツキの加法性
全平方和=平均の平方和+誤差の平方和
バラツキ:データと平均との差の二乗和


4水準での一要因分散分析
ランダム要因
10名の参加者はたまたま選ばれた人たち
これらの参加者の違いを明らかにする必要はない

固定要因
4種類のペンの書きやすさの違いがこの研究のテーマ

固定要因が1つの場合
一要因の分散分析あるいは一元配置の分散分析

1つの固定要因が4つの条件で構成されている
この構成要素数が水準

分散の大きな平均値は互いに違う
分散の大きさを判断するためにF検定を使う


心理統計第11回
分散分析で重要なこと
固定要因がいくつあるか考える
釣り合い型と不釣り合い型には気をつける
被験者内要因と被験者間要因の違いを意識する


心理統計第12回
心理学で回帰分析を使うのは
入力→情報処理系としての人→出力
入力と出力の関係から人を推論

刺激としての入力と、反応としての出力との間で直線的な関係を想定
フェヒナーの心理物理学


心理統計第13回
偏相関係数
2者間の相関に対して、もう一つの変数の影響を除いた真の相関
除かれた変数=制御変数

回帰分析のあてはまりで重要なこと

回帰分析のあてはまりを評価するための複数の視点
あてはまりの程度を評価する1
分散分析
残差の変動=残差の二乗和
回帰の変動=回帰直線によって説明される部分

分散分析で有意であれば、データが回帰直線にあてはまってるということ

あてはまりの程度を評価する2
t検定
回帰係数0と求められた回帰係数がどの程度異なっているかの検定

回帰分析と分散分析の違い
回帰分析では、試験成績は量的な得点
分散分析では、単なる分類のためのカテゴリー

分散分析での誤差、得られた各結果とこれらの平均値との差


重回帰分析では、独立変数が複数存在する
2個の場合は、2つの回帰係数が影響し合う、一方の影響を除いたのが偏回帰係数
説明変数が増えれば、それだけ決定係数が高くなる


心理統計第14回
多変量解析
相関係数を元に
「取り込む」=似た独立変数を取り込む
独立変数のまとまりを特定
プロトタイプ論的手法

「分ける」
従属変数との関係の中で独立変数を分ける
従属変数を規定する原因を特定(おいしさ、は何に起因するのかを知る)
因果論的手法

プロトタイプ論的手法
似たもの同士をまとめる、共通要因の特定、心の働きを推論
例)性格類型論、ある性格の人は同じ行動特徴を持っている
この特徴をもたらす心の働きは?
似ていれば相関係数は高いことを活かして、多変量解析でときほぐす


乳酸飲料の試飲テストの例
(順序尺度の結果でやっていいんだね)
主成分分析(縮約と統合)
得られた主成分の中でスコアが最大値のものが特徴的な項目

主成分得点の平均値は0標準偏差1に標準化されている
10個の変数が主成分3個に縮約された

主成分1と2の象限に製品ABの平均値をプロットすると

縮約/統合
1人のデータは10個で構成されてる、これを10以下の数で表現
どの程度の数まで縮約できるか

3つの基準
説明率(累積説明率が50%は欲しい)、
固有値が1以上(説明する変数が1個はあるって意味なのかな)、
単純構造

結果の記述の仕方
どのような基準で主成分の数を特定したのか
主成分負荷行列、固有値、説明率(寄与率)、累積説明率、
各主成分の解釈

因子分析(潜在変数の発見)
主成分分析は相関行列の対角要素は1
因子分析の対角要素は1以下

同じ変数の相関は数学的には1になるはずなのに
なぜ因子分析では1以下になるのか?
直接観測できない変数(因子)が影響して各変数がスコアをとる
性格以外の他の変数でもたらされた特徴である
この因子の影響度を除去するために1以下になる

同じデータを元にした因子負荷行列(回転前)と主成分負荷行列で並べてみると
スコアが変わってるのが確認しやすい(対角要素の相関係数のぶん変わる)

因子軸の回転
隠れた因子を適切に解釈するため、単純構造化するため(解釈しやすくするため)


因果論的手法
反応の原因を明らかにする、心の働きを推論する
結果としての反応が1種類
原因としての刺激が複数

重回帰分析(原因の発見)

主成分分析で得られた主成分をもとに重回帰分析

標準化されていない係数B 傾きにあたる
標準化係数β 標準化する=原点0を通るから切片がない時の傾き
定数=切片

重回帰分析の問題
多重共線性が発生する、2つの独立変数の相関が高い
同じような変数が2回独立変数として使用される、
これは避けたい(信頼のおける結果とはいえない)
多重共線性が気になる場合は、主成分間の相関がゼロである主成分得点を使う


多変量解析で重要なこと
 相関係数が重要
 プロトタイプ論と因果論の2タイプの手法を理解する
 複雑に絡み合っている要因を解きほぐす(心理学、こころのありかは複雑)


心理統計第15回
なぜ心理学に多変量解析なのか?
心理学の対象は人である、人には違いがある、結果は変動する
個人差というやつ、個人差を考える

個人内差 変動をゼロにしたい
個人間差 差に着目する 因果論的アプローチ(発達/性格などの差異心理学)
 差の中の共通性に着目 プロトタイプ論的アプローチ
  代表的な人(general person)という仮の概念を対象に
    知覚や学習などの実験心理学

個人差をなくすために
結果の変動要因
測定結果の変動(疲労、注意、意欲)
内的基準の変動(基準の不安定さ、学習)
評価結果の変動(社会的要因)、いずれも個人内差

変動をなくす努力
noise free situation(多くの練習試行後の安定したデータを使う)
専門評価者の養成(ブレない基準を持ってる人が判定する)
フェイスで個人間差を揃える

統計を勉強する上での3つのつまづき
1)%の意味
95%信頼区間、5%有意水準
10名の結果の平均 平均の95%信頼区間
もしもこれを100回同じことを繰り返したとしたら
10名の結果の平均を100回やったら、
100個の平均が95個入る区間を推定している(推測統計)

2)統計的仮説検定
帰無仮説を否定=確率的に「ほとんど」起こりえない
対立仮説を採用(AB間に違いがあることを期待している)

ほとんど、とは有意水準のこと、
5%有意水準でいうと、100回中5回以下なんてまれだろう、と

3)分散分析
分散の検定は手段である、複数の平均の違いを検定する
t検定=2者間、分散分析=たくさん
複数の平均の分散が大=大きな値から小さな値まで散らばっている、
つまり平均に違いがある

分散の大小の評価、とは誤差分散を基準にしている
何を誤差ととらえるかによって多様な分散分析がある

心理統計法とは
統計は道具です
研究目的を実現するための手段です
間違った使い方をしないようにしましょう


実験や調査で得られた結果を他者に伝える
事前に想定した結果の合否を伝える

検定は伝えるための工夫
想定した内容を検定で明らかにできるような事前設計の必要性
心理学研究法や目的の明確化が大事になってくる


記述統計だけでなく推測統計もできるようになってくるといいんだろうね
記述統計だけだと事実の報告で終わる
提案や将来の予測につなげるには推測統計が使える

記述統計学 すべての個体を調査
推測統計学 標本調査

(2013年6月メモ)

社会調査at放送大学

■社会調査第4回4/26
キャリーオーバー効果
質問の順序が与える影響(前の設問での回答が、後の設問の回答に影響する)

回答者にスムーズに回答してもらいやすいものを冒頭に、
ウォーミングアップ、ラポールを形成する、と考える
抵抗感のあるものは持ってこない、難しいもの(いっぱい思いを巡らせないと出てこないもの)は持ってこない、
答えやすい=はっきりした事実や経験、最近のこと、


・質問文について
質問文が備えるべき性質
妥当性
 得ようとしている回答が的確に得られる設問内容か

信頼性
 回答の安定性ともいえる
 いつ、なんど聞いても同じ回答が得られそうであること
例a)あなたの現在の支持政党は?
例b)あなたはこの間の選挙でどの政党に投票した?
信頼性はbの方が高い
aのように、ふだん自覚してないことをたずねても、その回答は安定してないことが多い


とある小学校での事例、観察調査と翌日の聞き取り調査が一致してたのは6割。
授業で手を挙げたか?先生に当てられたか?給食を食べたか?
こういう自覚的におこなっていない行動については言行不一致がおきやすい

比較可能性
 他の調査結果と比較できる、なるべく共通にしようぜってこと


誘導的な設問
 権威になびきやすい(世間では~)、はいと答えやすい傾向(~に賛成ですか?)


質問=刺激、回答=反応 この反応から事象を推測するため、
投げかける質問(刺激)は中立的、同じである必要がある
すべての回答者に同じ意味として伝わる必要がある
(質問紙調査の場合、形式的同一性は担保されてるので)
実質的同一性を(可能な範囲で最大限)揃えないといけない

避けるべき質問の形式(実質的同一性をおびやかす質問文)
あいまいな言葉を含んだ質問
難しい言葉を含んだ質問
ステレオタイプを含んだ質問
二連発銃(double-barreled)質問
やたらと長々しい質問

→単純明快な質問文を作るべし!

難しい単語が出てきても、回答者は「わからない」とは言わない。なんとかして回答しようとする
metallic-metals問題の世論調査
a.連邦で法律を制定すべき
b.各州の対応にまかすべき
70%以上の回答者はaまたはbを回答した
連邦か州かというのはアメリカ人にとって常にhotなテーマのため、よけいに比率が多くなっちゃったというのはあるかもね


・回答方法について
選択回答法
プリコードしてるので後処理が楽、選択肢を出してまとめるのは大変だが。選択肢のスキマ、微妙なニュアンスをとりこぼすこともある、その他選択肢ですくう。

自由回答法
アフターコーディングは手間だが、微妙なニュアンスは拾いやすい、とはいえ漫然とした教示では期待した結果は得られにくいし、回答者のスキルやめんどうくささにも左右され

選択肢の備えるべき性質
悉皆性
 すべての選択肢で、回答の全範囲をカバーしている
排他性
 各選択肢は、互いに排他的で重なり合わない、上とあわせてMECEである
明快性
 回答内容と選択肢との対応関係が明確である


変数valiableとその値value
個体によって値の異なる特性を指す統計用語

量的変数と質的変数
統計量、統計解析技法が異なる
統計解析技法は量的変数の方が豊富

量的変数の作り方
実数値で回答を得ることのできる項目 年齢、収入など
質的変数の各選択肢に調査者の側で数値を割り当てる
 学歴を就学年数にするとか、順序尺度にしちゃう

複数の質的変数を組み合わせて量的変数を作る
 尺度構成法、資産の種類をあげてそれぞれの所有有無を聴取、これだけだったら質的変数だが、これを組み合わせて量的変数にしちゃう


■社会調査第5回5/10
標本調査の利点
調査の精度が高い
 標本抽出による推測の誤り(サンプリング誤差)
 人為的ミスによる誤り(非サンプリング誤差)
調査員が少数で済む
 良質で均質な調査員の確保
 複雑な調査の実施
調査管理のコストが小さい
調査による影響が小範囲に止まる


無作為抽出 回収割付をしない(する必要がない)
割当抽出 無作為抽出以前におこなわれてた手法
 標本抽出台帳が存在しない(個体の抽出法がない)
 街頭インタビュー的な行き当たりばったりで集める感じ
 そのため当該社会事象の縮図は保証されない

層別(層化)抽出 モニタ調査
 標本抽出台帳(モニタリスト)から性年代構成比で回収割付(抽出個体数を比例配分)
 個体の抽出が無作為抽出法と結びつけられている
 統計的推測の理論を持っている


母集団と標本の関係
目標母集団 ←理想はここを推測したい がそこまで一般化できるものなのか?
調査母集団 モニタ←実際の推測
計画標本
有効標本

調査簿集団の選び方
 代表性、典型性、先駆性


■社会調査第6回5/17
項目間の独立性の検定(x2検定)
 もし項目間に関連がなければ、就業形態が異なっていても、性別役割意識の分布(肯定率、否定率など)には違いがないはずだ
 ↓
 予想される分布と実際の分布との食い違いをみる


■社会調査第7回5/2
調査場面コントロールの効果
身代わり回答の防止
斉一的な調査条件の確保
回答者の単純ミス防止
複雑な調査の実施
回答を意図的整合化の防止
ウソの防止


2013/8/19
社会調査第8回
コードの種類
択一式
多項選択式
実数値
na dk 非該当 (欠損値)

社会調査第9回
柱状図、散布図、単純集計数表、クロス集計数表で

データの概要をつかむ、外れ値を見つけ出す

代表値
たった1種類の指標でデータの特徴をつかむ
平均値、中央値、最頻値

散らばりの統計量
偏差平方和(変動)
 個体数が多くなると数字が大きくなる(単に足しただけなので)

そこで分散
偏差平方和を個体数で割る
でもこれや偏差平方和はじじょうしてるので単位が変

そこで標準偏差
分散の平方根なのでこれなら単位が元に戻ってる

普遍分散
偏差平方和を個体数-1で割る

関連の統計量
共変動
 2つの変数の関連性をみる、プラス(第一象限or第三象限)が多いのか
マイナス第二象限or第四象限)が多いのか
ただし変動(偏差平方和)同様に、個体数が多くなると数字が大きくなる

そこで共分散
共変動を個体数で割ったもの

そしてこれまた共変動や共分散だと単位が共通でない

そこで積率相関係数
単に相関係数
線形関係(右上がりか右下がりか)への近接性をみる


社会調査第10回
クロス集計表のエラボレーション(精緻化)

擬似相関(xとyに共通の原因)
媒介効果
付加効果(プラスとマイナスとがある)
無効果(zは無関係または独自効果)

交互作用やマイナスの付加効果によって擬似無相関に見えることもある

コントロール変数増加の影響
分割されたクロス集計表の数が増加する

各セルに現れる度数が小さくなる(統計的分析に値しない)
統一的な把握が困難になる(単純なタイプ分けが不能になる)


社会調査第11回
聞き取り調査の手順
姓名、肩書き、所属などを告げる
ウォーミングアップをおこなう
この面接の主旨、目的を述べる
さらに親密さを加える
相手に話してもらう
こちらから質問する
言い残したことを話してもらう
回答の要点を確認する
協力への感謝を述べる
面接を終了し辞去する



社会調査第12回
報告書の書き方
比率の差の扱い
2つの条件を満たしたものを「有意味な差」とみなして
考察の対象にする
1統計的検定をパスする
2定めた基準以上(例5%,10%)の差がある


社会調査第13回
変化をとらえる
過去との比較、いつでもそういうデータがあるわけじゃない
→年代比較、test vs control比較

年代間比較での比率差は、加齢の影響かもしれない
(世代効果、加齢効果、時代効果を厳密に区分するのは無理かもね)


社会調査第14回
さまざまな社会調査2

社会調査第15回
調査者と被調査者
標本抽出台帳の閲覧制限
個人情報保護法施行( 2005年)
住民基本台帳
公益性の高い世論調査と学術調査

選挙人名簿
政治・選挙に関する世論調査や学術調査

上記以外の場合は
住宅地図からの抽出、RDD法による対応など


(2013年6月メモ)

認知心理学会公開シンポジウムat日本大学

人間の記憶と現代社会
心理学の科学的アプローチ
何のための学問か?

超人的な記憶力の秘密をさぐる
数字を言葉に置き換えて語呂合わせ 日本と中国ぐらい
直観像 共感覚 フラッシュバルブメモリー
わからんものは頭に残らん これが効果的な記憶術
意味づけが大事 符号化
一夜づけよりも意味づけ
言語的知識は加齢により上昇
記憶力は低下するが

共感覚と後天的な符号化の境界線は?
言葉が直観像をジャマするのかも?

活動の高密度化がヒューマンエラーを増やす

空間周波数
ローパス 処理がはやい ぼけた画像
ハイパス 高空間周波数のみとりだす 明るさの局所的に違う
画家は画面の正中線上に目(右or左)を描いている 写真も
学んだわけでもないのに
デザイナーの方が素人よりも脳の活動領域が少ない
脳はいっぱい使えばいいではなく一部の活動を抑えることが大事なのかも?
白銀比1:√2 黄金比1:1.618
眼窩前頭皮質 美しい 欲しい時も。道徳の善悪も。
運動皮質 みにくい

wording effect 語法効果
文書と口頭で大して差なし 元ネタは文書教示
言葉の情報は抽象度が高い
顔は情報量が多く、一方でことばで表現できる顔の特徴はさほど多くない
非言語情報の記憶や認知に、ことばが妨害的にはたらく
マッシュルーム地図味覚ワイン潜在学習洞察的問題解決感情判断A P Mサンドペーパー
類似性が高いと言語化したらスコアが下がる
cognitive interview 認知面接法

(2012年10月メモ)