2017年1月22日日曜日

三つの帝国の時代

パラグ・カンナ

  • 世界中の道路を合わせると6400万キロ、鉄道400万キロ、パイプライン200万キロ、インターネットケーブル100万キロ
  • 一方、国境の長さ50万キロ足らず
  • 世界の防衛費および軍事支出の総計年間約2兆ドル、一方、インフラ支出は2014年約5兆ドル、10年以内に9兆ドル到達予測
  • 2030年には世界人口の3分の2以上が都市に住むようになる
  • 巨大都市群の多くはGDPが2兆ドル近く、インドのGDPに匹敵


ベイズ的推測の例

(少し勘違いが混じってるかもしれない)

ある企業が、売上向上を目的に製品カタログの見直しを検討
従来カタログでの購入金額平均は2,500円
新カタログをとりあえず20人に試したもらったところ平均2,900円だった
さて、カタログは切り替えた方がよい?
(それとも20人の平均額はたまたま高かっただけとも考えられるから切り替える必然性は薄い?)

従来型の統計学だと
現カタログと新カタログの購入額平均に差はない、という帰無仮説を
平均値の検定(t検定)で検証する
t=2.52 p=.02にて帰無仮説が棄却されれば、新カタログがよさそう、とはなるが「平均に差はない、とはいえない」を検定しただけであって、切り替えた方がよいかどうかを直接的に検証してるわけではない点がもどかしい

これがベイズ的アプローチになると
新カタログの平均2,900円が現カタログ2,500円に比べて高い確率は98.7%と出力される

95%信頼区間:2,572円〜3,281円(幅709円)と言ってるか
95%確信区間:2,560円〜3,279円(幅719円)と言ってるかの違い、つまり数値情報としてほぼ同じなのだが、ベイズ的な結果出力の方が、すっとわかりやすい。

信頼区間は、今回のデータによって、一定の危険率で棄却されない母数値の範囲であり、公式によって(場合によってモンテカルロ法で)計算可能

確信区間は、(事前の主観確率を一様分布等とした時に)母数が一定の確率で入る範囲であり、モンテカルロ法によって(場合によって公式で)計算可能

どちらが正しいかではなく、どちらが便利か、どちらを選択するかである


分布の種類

サイコロを投げると、1,2,3,4,5,6のいずれかの目がオモテになる。
1、または1以外と考えると、試行結果は2通りになる。

※試行:サイコロ投げのように同じ条件で何度も繰り返す事ができ、その結果が偶然により決まる実験・観測のこと
※ベルヌーイ試行:試行結果が2種類しかない試行


●二項分布の例:
サイコロを10回振るとき、1の目が出る回数の分布
(互いに独立した)ベルヌーイ試行を n 回行ったときにある事象が何回起こるかの確率分布のこと
Binomial Distribution

ある確率変数 X が二項分布 B(n, p)に従う場合、『X ~ B(n, p)』

二項分布 B(n, p)に従う確率変数 X の平均は np、分散は np(1-p)で表される

np(1-p) が十分大きいと正規分布に近似
近似基準としては
min{np,n(1-p)}>10
0.1≦p≦0.9かつnp(1-p)>5
np(1-p)>25
の3通り存在
出典:統計分布ハンドブック http://amzn.to/2iYIHgk

nが大きくpが小さいとポアソン分布に近似



●幾何分布の例:
サイコロを続けて振るとき、最初に1の目が出るまでに振った回数の分布
各項を並べると、幾何級数(等比級数)になるので、この名があります。


●ポアソン分布の例:
1億回に1回しか当たらないクジを3億回引いたときのアタリの回数の分布
二項分布の特殊な場合(数学用語では「極限」)です。1の目が非常に出にくいサイコロを作り、それを多数回実行したのと同じです。

単位時間内に観測された個数、回数、人数などの計測データが従う。
加えて、データが以下の3つの性質を持つ。
・同じタイミングで2回以上生起しないということ(稀少性)
・事象の生起は、それ以前の事象の生起に依存しないということ(独立性)
・単位時間内の事象の生起確率は常に一定(定常性)


●対数正規分布の例:
最頻値<中央値<平均値
右側の裾が重い、正に歪んだ分布、預金額や収入の分布など

正規分布に従う確率変数が負の値をとりうるのに対して、対数正規分布に従う確率変数は正の値のみとる


●指数分布:
ある事象が生起するまでの間隔を連続確率変数Xであらわしたときに、その確率変数Xが従う確率分布を指数分布 (exponential distribution) という。

幾何分布が離散的な待ち時間分布であるのに対し、指数分布は連続的な待ち時間分布である。

事故の発生間隔、電球の寿命、下水管の耐用年数、銀行窓口への来客間隔等、日常生活における様々な事象のモデル化に利用することができる。パラメーターは単位時間中における事象の平均生起回数λであり、指数分布は Ex(λ) にて略記される。指数分布の形状は唯一のパラメーターλによって決定される。


●ガンマ分布 
連続確率分布のひとつであり、指数分布を一般化した分布(gamma distribution) 

指数分布をある事象が起きるまでの待ち時間分布として考えるなら、ガンマ分布は、その発生率が 1/β で与えられる事象が複数回 (α回) 起きるまでの待ち時間分布と考えることができる

ガンマ分布は,期間 μごとに1回くらい起こるランダムな事象が n回起こるまでの時間の分布

例えば「10年に一度の割合でランダムに起こるイベントが3回起こるまでに何年かかるか」という問題には「期待値は30年。確率分布としてはパラメータが μ=10、n=3のガンマ分布が対応」と答えることができます。

ガンマ分布は正規分布の精度(分散の逆数)の共役事前分布です。

平均3個/年でガラスのコップを割ってしまうジロー君,コップ1ダース1セットを箱買いした。はたして,ジロー君が1箱すべてのコップを割ってしまうまでにかかる時間(年)はどのような分布になるであろうか。ただし,同時に2個以上のコップを使うことはせず,一つのコップが割れるごとに新しいコップを箱から取り出してきて使うこととする。


http://atarimae.biz/archives/7922

http://www.f-denshi.com/000TokiwaJPN/17kakto/110prob.html