2015年4月20日月曜日

身近な統計at放送大学

■身近な統計第1回4/30
ナイチンゲール鶏のとさかグラフ
クリミア戦争従軍兵士の原因別死亡データのデータを集計して死亡率を計算、
グラフを考案、戦争ではなく、病院の不衛生さで死亡している兵士が多いことを実証、データによる説得、陸軍の衛生・保健医療改革

神の御心を知るには統計学を学ばなければならない
=目の前のことだけでなく,全体を知る必要がある

PPDACサイクル
problem 対策をとるべき問題の発見
plan 現状を測るためのデータ収集と分析計画
data 資料やデータの収集、記録、整理
analysis データの分析
conclusion&improve 結論のとりまとめと施策の提言
control&check 施策の実施管理と効果の評価

論より数字 勘より統計
統計の日10/18

international statistical literacy project
数字に関する知識・活用力普及の世界的取り組み
リテラシー(読み書きの基礎能力)から、数理リテラシー、統計リテラシーへ

統計数字(意味を持っている、単位のある数字)の知識と活用能力の育成
統計思考力
21世紀型ワークスタイル
身の回りの課題を統計的な問題に設定する能力
関連する資料、データ、情報の迅速な収集能力
データの分析能力
結果の効果的な情報発信能力

問題解決、知識発見型の総合情報処理能力
モノからカネ、サービスの計量分析的管理


統計=統べて計る
集団の大量観察
国や社会の姿を映し出す鏡 現在の状況の計測
進むべき方向を示す羅針盤 将来の到達点の予測
経済や社会の内部構造に迫り、そのメカニズムを解明する内視鏡 目標値への制御

statistics←state国家、語源は同じ
自然現象、モノの生産管理、輸送、収益管理、人的資源管理、経営、リスク管理など

データとは?客観的事実
データに基づく管理
KKD(勘経験度胸)からFACT CONTROLへ

情報とは?個人や組織の意思決定に役立つ
エビデンスに基づく
EBM,EBP,EBPD..
説明責任 evidence-based society

統計分析の考え方
データの見方
データの形式
データ分析の視点
全体のバラツキ(分布)の見方
 並べ替え、パレート(ABC)分析、ヒストグラムと箱ヒゲ図、基本統計の意味
関連性を測る
 散布図、相関係数、傾向線(回帰直線)、クロス集計表
時系列データの見方
統計的推測のロジック(推定・検定)


身近な統計第6回
変動係数 coefficient of variation

平均値が大きく違って、標準偏差が同じものを比較する
どちらがデータが偏ってるか?

実質的なデータのバラツキの大きさを評価する指標
相対標準偏差

CV=s/x(標準偏差÷平均) %表示
単位はない、測定単位が違うものを比較するのにも使える

単峰じゃないとか、歪んだ分布の時には変動係数は向いてないので
四分位分散係数を使う

四分位分散係数=四分位偏差÷中央値
四分位偏差=四分位範囲÷2
四分位範囲は第1四分位(25%点)~第3四分位(75%点)

両側の外れ値に引っ張られない範囲内でのデータのばらつきを見る

ローレンツ曲線 lorenz curve
分配の格差を示す、下に凸な弓形のグラフ

横軸に構成要素の度数の累積比率、縦軸に分配数量の累積比率をとる、
均等分配線に対して、ローレンツ曲線は下側に弓なりになる
格差最大の分配線と均等分配線の間をとる

それを計量化したものがジニ係数 gini's coefficient
格差の程度を数値で測る指標
(均等分配)0<=ジニ曲線<=1(格差最大)
均等分配線とローレンツ曲線の中の面積の2倍


身近な統計第7回
さまざまな確率
経験的確率
頻度に基づく確率で、数多くの繰り返しをおこなった場合の割合として求められる確率

数学的確率
場合の数による組み合わせ理論で導かれる確率

主観的確率
それぞれの人が考える主観的な信念あるいは信頼の度合いとして表される確率

確率変数
変数の取り得る値、または値の範囲に、それが生起する確率が確率分布として規定されている変数

確率分布
確率変数の取り得る値や値の区間に対して、それが生起する確率を示す関数

確率変数、公平なサイコロを振って出る目の数
確率分布 生起確率はどの目も1/6

離散型確率変数
離散的な値しか取らない確率変数
離散的な値について、その値を取る確率を考える

連続型確率変数
連続的な値を取る確率変数
値の種類が無限個あるので、値ごとに確率は考えない
値の起こりやすさは評価できる、確率密度を使用
値の区間に対して、確率を考える


身近な統計第8回
正規分布の下側確率を出す
normdist(x,μ,σ,1)

正規分布の%点を出すには
norminv(下側確率p,μ,σ)
下側確率がちょうどpとなるデータの値を返す

でも世の中には正規分布じゃないものも多々ある
そこで、歪んだ分布を変化することで正規分布モデルが利用できる

正規分布のデータを指数変換するとロングテール(右に歪んだ)な分布になる
指数変換y=e^x

逆は対数変換
x=logey
ロングテール分布のを対数変換すると正規分布にできる
どんな歪み方であれ、底eをいろいろ操作することで対象な分布にできる

↑こういうことができるから、正規分布がよく使われるアンド
中心極限定理
平均μ標準偏差σの同じ分布に従うn個の互いに独立な確率変数の合計や平均の分布は、nが大きければ、正規分布になる



身近な統計第10回
標準誤差standard error S.E.
標本分布の標準偏差
推定値の精度を評価する尺度
標準誤差が小さいほど、推定値が真値に近いことが確率的に期待できる

標準誤差もσの法則があてはまる
1.64の間にSEが入る確率90%の面積
1.96の間にSEが入る確率95%の面積
2.58の間にSEが入る確率99%の面積

標本誤差sampling error
推定値と真の値(母数)との差
信頼度を上げれば標本誤差は大きくなり、
信頼度を下げれば標本誤差は小さくなる



身近な統計第11回
統計的推測
標本から母集団に関する推測

統計的推定estimation
母集団の平均や比率を標本データから推定する
(推定誤差をコントロール)
→標準誤差、信頼区間

統計的仮説検定tests of significance
母集団の平均や比率に関する仮説を標本データから判断する
(判断ミスの確率をコントロール)
→有意水準(危険率)


2種類の過誤確率
第1種の過誤確率α あわてんぼうの誤り
帰無仮説が正しい時に、帰無仮説を棄却する過ちを犯す確率
ルールとして事前にコントロール(有意水準)

第2種の過誤確率β ぼんやりの誤り
帰無仮説が正しくない時に、帰無仮説を棄却しない過ちを犯す確率

2種類の過誤と有意水準
過誤の可能性(確率)は小さい方が望ましい
2種類の過誤確率を同時に小さくすることは不可能
(αを小さくすればβが大きくなる)
 過誤確率を一定水準まで認める立場を取る
  第1種の過誤の確率αを一定水準に設定する



身近な統計第12回
特化係数=部分集団の割合÷全体集団の割合
1に近い値:全体傾向と同じ
1から離れた値:行と列の組み合わせによる固有の効果



身近な統計第14回
時系列データの構成要素
傾向変動trend component トレンドT
循環変動cyclical component サイクルC
季節変動seasonal component シーズンS
不規則変動irregular component ノイズI

T,C,S,I系列 原系列:O

原系列データoriginal
加法モデルO=T+C+S+I
乗法モデルO=T*C*S*I

季節調整のための移動平均
季節パターンの周期と同じ項数の移動平均を取る
月別データ 12項移動平均
四半期別データ 4項移動平均
日別データ(週パターン) 7項移動平均

移動平均による季節調整
四半期ごとの入場者数を集計 原系列データO=T*C*S*I 
中心化移動平均系列を算出(SとIを平均で消している) T*C
四半期それぞれの特徴が出てくる(原系列/中心化移動平均)×100 S*I
四半期それぞれの平均を算出 平均S
四半期の合計が100になるように数値調節 季節指数S

季節調整済み系列=原系列/季節指数×100 T*C*I

見たいものを見やすくするために余分な情報を削る、それが季節調整



身近な統計第15回
統計学statistics
データを扱う科学
不確実性の数理、発見科学
社会や経済および自然界の状況や法則を表す数値データ
データの作成と分析、情報の読み取り方(方法)の総称

統計的思考力
不確実性をともなう諸現象を過去のデータのバラツキでとらえ、分布として記述し、解釈する力
分布に基づいた推測方式の概念を理解し、諸種の文脈(コンテキスト)のもとで実践的に応用する力
データの収集、データの記述、データに基づく推測という問題解決のプロセスを習得し、推測と具体的なアクションにつなげる力

統計学の重要な8つの概念
記述統計
データ 必要性とその特性
分布 バラツキの記述
基本統計量 分布の特徴の計量化

推測統計
モデル 確率分布モデル
標本とサンプリング 標本調査の仕組み
推測 標本誤差と仮説検定のロジック

連関・相関分析
関連性 変数間の関連性の分析

時系列分析
傾向 時系列データのパターンの把握

データdata
必要性とその特質
データ(統計)=客観的事実
情報公開時代、エビデンスに基づく意思決定

賢い統計情報の消費者
行政施策を正しく理解する責任ある市民
ビジネスにおける合理的な意思決定
 測る、予測する、制御する


統計的(科学的)問題解決の枠組み
data-based problem solving

課題(issue)からデータで解ける問題(problem)に
客観的評価指標Y(outcome)の設定
Yに関する現状分析(分布)
Yをコントロールするための要因Xの探索

XとYの関連性の分析(因果/連関/相関分析)
コントロールできるXを制御して、目的である指標Yの改善を図る


知識基盤社会における統計
データが簡単に手に入る
分析ツールが簡単に使用できる
判断すべき課題が身の回りにあふれている

統計的な思考力(統計的考え方、物の見方)が、確かな知識を創出する時代
論より数字、勘より統計(平成15年度統計の日ポスター標語)

(2013年6月メモ)

0 件のコメント: