2011年5月20日金曜日

平均のメリット

平均のメリット
すべての分布に常に存在する
唯一無二の値である
計算が簡単
(正しそうという誤解の元で)すべてのデータを用いる
意味が明確、わかりやすい
高度の統計計算に必要

デメリット
例外値の影響を非常に受ける
適切な代表値でない場合がある
2つ以上の異質なグループ(異常値)を含んでいないのか注意


平均が世に浸透した背景
平均という考え方を初めて社会科学に持ち込み、人間にあてはめたのはアドルフ・ケトレー。
19世紀初頭の課題、測定者によって天体速度の測定値が異なる。
別々に計測された値をまとめて平均値を割り出すことで、測定誤差を最小限にするという方法が考案された。

ケトレーは、これをそのまま人間に流用し「個々の人間は誤差を伴うが、平均的な人間は真の人間の象徴だと宣言」
多くの知識人から高く称賛され、世間の平均に対する考え方の基礎をつくった。
この時代における平均人は、平凡でつまらぬ者ではなく、完璧な人間であると理解されていた。

この平均に対する憧憬を一変させたのは、ケトレーより20年少々遅れてイギリスに生まれたフランシス・ゴルトン。
階級社会イギリスの上流階級に生まれたゴルトンは、平均に階層の概念を加えた。

ゴルトンは、ケトレーとは異なり、平均からの逸脱を単なるエラーであるとは考えなかった。
平均から上方へ逸脱したものを「有能者」、下方へ逸脱したものを「低能者」としたのである。
平均以上であることに価値があるというゴルトンの思想はあまりに広く深く現代社会に浸透しているため、
にわかには信じがたいが、平均が意味するところを正常から凡庸へと変化させたのは、「ほぼ100パーセント、ゴルトンひとりの手柄」であるという。

平均や標準化は、人類に大いなる繁栄をもたらした。標準化による大量生産を謳ったテイラー主義こそが20世紀の大量生産・大量消費の時代につながる。
ハイスピードで労働者の賃金を向上させ、消費者に手ごろな価格で便利な製品を提供し、多くの貧困層を救った。
https://courrier.jp/news/archives/88522/


べき分布
ロングテールも結局はべき分布にしたがっている。
べき分布ではサンプル数を増やすと平均値が上がってしまう。
「平均」という概念に意味がない。
正規分布に比べて、裾野が右に広がる。
実は正規分布の成立する方が限られた場面なのかも。


セイバーメトリクス
打率、本塁打、打点
出塁率 打率以上に得点との相関が高い
GPA OPS(出塁率+長打率)をより得点との相関を高めたもの
BRs27 その選手だけで打線を組んだ時に、1試合あたりどれだけの得点を挙げられるか
類似指標RC27

盗塁は得点の期待値を「あまり」あげない
1シーズン200盗塁、成功率80%でも、シーズン総得点は10-15点押し上げる程度
二死二塁からの三盗は成功率8割でも、得点期待値と得点確率の両方を低下させる
でも1点がどうしても欲しいケースなら、得点期待値よりも得点確率を優先して、
60%以上の成功率が見込めるなら、盗塁を試みる価値はある


尺度
質 名義 1男 2女
順序 尺度の等間隔性は不安定。5件法や7件法
量 間隔 尺度間は等間隔ではある。加算はしてもいいらしいが、積算倍率はちょっと
比率 なんとでも計算OK


池田さん講義
出荷時の品質管理(QC)から発達した→sensory evaluation(官能評価)

「かなり」は地域によって結構度合いが違うので、あまり使わない方がいいかも

統計的には、順序尺度を間隔尺度として使うのには無理がある。
ただし、各選択肢が等間隔であると見なせる場合には、統計的にも望ましい結果が得られる。例えば、市場製品を対象とする場合、寡占的な製品、ニッチ的な製品を選択肢に含めてしまうとうまくいかない。つまり平均順位とかの算出にはある程度有益である。

平均値で主成分分析をやると、データのバラツキを無視することになるから、寄与率が上がる。だからローデータでやる。

データの取り方。意識だと嘘をつかれる。行動・実物の方が確からしい尺度となる。


多重比較
クラスカル・ウォリスの検定(K個の独立サンプルの検定)
ウィルコクスンの順位和検定(2個の独立サンプル)
ボンフェローニの修正方法


因子分析→クラスター
因子分析
主因子法、回転しない、KMOとバートレットの球面検定にチェック
固有値1以上

クラスター
大規模ファイルのクラスタ分析
クラスタ個数は自分で指定

(2006年4月5月、2007年2月6月、2010年3月4月メモ)
-->

0 件のコメント: