2020年9月30日水曜日

Prophet by Python on Mac

# pip3 install pystan
# pip3 install fbprophet

python3 -m pip install prophet
python3 -m pip install --upgrade plotly

Prophetによる時系列データの予測
https://anaconda.org/logman/forecast1_0/notebook
Diagnostics
https://facebook.github.io/prophet/docs/diagnostics.html

https://github.com/sasasakaz/trial/blob/main/prophet.ipynb

2020年9月26日土曜日

マイケル・サンデルの白熱教室2018

哲学は机上の学問ではない、空想世界のものではない
市民が暮らす現実社会にこそ必要
差別はどんなときも正義に反することなのか
収入や富の格差とどのように向き合えばよいのか
国境をめぐる問題をどう考えるべきか
民主主義の力が試されている

1.移民

難民の受け入れ、断る権利はあるのか?
では移民の受け入れ、断る権利はあるのか?
文化面での影響、経済面
親の遺産を受け取る権利はあるのか?
国境の概念は?
出国を制限する権利はあるのか?
帰属意識は?以前の国か?今の国か?
愛国心


2.AIは最適な恋人を探せるか

AIは完璧なマッチングができるのかもしれないが我々人間はそれを望んでいるのか
人間の医師とAI医師のどちらに手術してほしいか
感情で動くからこそ人間に手術、延命措置してほしいのでは
自動運転にどうプログラミングするか
AIはコメディアンになれるか
死んだ人のデジタルアバターを作ることは?
冷や汗、心地悪さ、不完全さが人間には必要なのでは?


3.人を見た目で選んでもいいのか

どんな場合でも差別は正義に反するのか
人種差別と見た目による差別は同じか違うか
特定の人種を優遇的に採用することは許されるか
 あとに続く人への道を開くことにもなるのではないか
特定の人種にだけ職務質問するのは許されるか
空港のセキュリティーチェックでの差別は許されるか

差別を受けると社会に対する信頼が薄れる
より多くの機会を与え、より多様な社会を作り出す優遇的差別なら許されるのではないか
アリストテレスのいう正義の定義「人間を平等に同じように扱うこと」
 真の議論は、平等とは何か、同じようなとはどのような点においてなのか、それを決めようとするときに生じる
 その答えは経済的原理によって決められるべきか

差別に関する議論は簡単だと言われることがある
なぜならほとんどの人は差別には反対だし、人間は平等に扱われるべきだと考えているからだ
ところが実際に難しい選択、困難な決断に直面したとき、私たちはそれぞれに問い直すことを迫られる
そもそも目的とは何か、その目的を達成するために私たちのどんな人間性が問われているのか
どんなチャンスが広がり、なにが障害や犠牲になるのか
どんな差別が不当でなにが妥当な差別なのか


4.ロナウドの年収は高すぎる?

ロナウドが教師の2000倍稼ぐのは公正なのか
 才能への評価なのか努力への評価なのか
 希望が、問題は社会の不平等にあることを見えなくしている
 社会が評価するのは努力だけではない、才能や素質もではないか
生まれつきの才能、つまり運がその人の収入を左右するのは正義や公正に反することなのか

レースの勝者は道徳的にも勝利に値するのか
実力主義社会は貴族社会よりも公正といえるのか
 偶然、才能を持っていること、偶然、その才能が称賛される社会であること、両方揃ってたからロナウドがいられる


もしあなたが金持ちだったら実力社会と偶然社会どちらを選ぶか
金持ちのときは実力社会がいいという、達成感や満足感、誇りを自分に感じたいから
一方、収入の低い恵まれない立場だったら、実力社会には住みにくさを感じるだろう
今、社会から取り残されると感じる人々は、社会の不公平さだけに不満があるわけではない
自分が尊重されていないと感じる
収入が低く質素な生活を送っているのは努力が足りないからだ、他の人ほど価値がないからだと言われてるように感じる
社会が実際に不平等であるという状況に加えて、それぞれの人に与えられた地位は本人の努力で決まるという考え方は地位が高くない人々にとってはとても腹ただしく感じる、屈辱的でさえある
このように実力社会は所得や富の分配からだけでなく、人間の尊厳からも問題となる
社会はすべての人にそのはたらきに見合った敬意を払えているのか

古代ギリシャの政治哲学者は、分配的公正(配分の正義)について話し合った
議論の中心は所得や富についてではなかった、社会的な役割や義務、名誉などについてであった
その議論は今も続いている
配分の正義は単に市場が求める価値や公平さだけの問題ではない
人の名誉や尊厳に関わることでもある
公正な分配をどうおこなうべきか、現在の民主主義社会の根底にある課題の一つである


5.プライバシー

警察は病院のDNAデータベースを利用していいか
全国民のDNA情報の登録を義務づける制度に賛成するか
保険会社に自分の情報を提供して値引きを受けるか
Uberが乗客の情報を公開するのはプライバシーの侵害か
プライバシーには固有の価値はあるのか、同意があればいいのか
正しい同意さえあればプライバシーの侵害とは存在しなくなるのか

エリック・シュミットがプライバシーの問題について質問されたときの答え
あなたが誰にも知られたくないと思っていることは、そもそもそれをやること自体が間違いだったのではないですか?

ネットの個人向け広告はプライバシーの侵害か
自分のプライバシーで最も重要な問題は、見た動画?読んだ本?行った場所?

古代ギリシャ、ソクラテスの時代、プライバシーが問題になることはなかった
公の領域と個人の領域が区別されていたから
公の領域、すなわち民主主義により価値を置き、実践を進めた
個人の領域だけで生きる人々をイディオティスと呼んだ、これが愚か者イディオットの語源となった
イディオティスは市民社会への参加を果たしていないと考えられていた
だから古代の人々にとってプライバシーとは軽蔑の対象だった
ところが現代では重要な価値を持つ難しい課題となっている

プライバシーとは何か、なぜ重要なのかを説明するのが難しいのは、それが二次的な役割を担っているから
公平な社会、自由な社会、民主主義的な社会を求めている、でも誰もプライベートな社会を求めてるとはいわない
プライバシーはなにかしらの脅威に対抗するための価値をもつものだから
高圧的で独裁的な国家からの脅威、市民を監視し反乱の芽を摘み取ろうとする国家からの脅威、
なにかを売りつけようと私たちの動向を常に見続ける企業や調査会社、ソーシャルメディアからの脅威かもしれない
現代はDNAとビッグデータの時代でもある
民主的な社会に生きる市民にとって、プライバシーの意味を広く議論し、
私たちをなにから守るものなのかを考え続けるのが重要

公正な社会とは何か、平等とは、市民の義務や人間性の価値とは何か
たとえ全員が同意する結論にたどり着かなくても大切なことを教えてくれる
それこそ公共性の精神、お互いへの敬意の重要さである

ときに激しい意見の対立が起きたとしても、公の場で議論を交わすことで民主的な社会に生きる市民としての資質が養われていく



SARIMA

東アジア積米国揚コンテナ荷動き予測におけるSARIMAモデルの適用性

http://www.ide.titech.ac.jp/~hanaoka/finalversion-of-conference.pdf

3.データの定常性
ADF検定
原系列に加えて差分系列を用いた理由は、原系列が非定常である場合、差分系列をとることによりデータが定常になることが多い(9)ため

原系列 単位根は存在しなかった。差分系列の場合は、t値が-9.368と99%有意水準でも帰無仮説が棄却されない。これにより、差分系列の定常性が確認された。以上の結果を踏まえ、差分系列を用いてSARIMAモデルを開発し、その適用性を検証する

4.モデル
4-1モデル概要

自己回帰項の次数(p)は、自身(荷動き量)の過去の値について、どこまで遡って説明変数として用いるかを示している。例えば、pが2であれば1期及び2期前の荷動き量をモデルの説明変数として考慮することになる

階差の次数(d)については、分析に利用する時系列データが定常性を有するまでに必要となった階差数を示す。本研究では、3.で述べたように、一階の差分系列が定常性を有しているため、dは1となる。

なお、原系列が定常性を有している場合は、dは0となる。

移動平均項の次数(q)については、自身の過去の値の誤差について、どこまで遡って説明変数として用いるかを示している

なお、本研究では月次データを用いているため、季節変動の期間(s)は12である可能性が高い(10)。このとき、季節自己回帰項の次数、季節階差の次数、季節移動平均項の次数はそれぞれP、D、Q、に入る数値の12倍前の値が説明変数として用いられる。例えばPが2であれば、12期及び24期前の荷動き量を説明変数として考慮する。

4-2モデルのパラメータ特定
コレログラム

図3に差分系列の自己相関係数、図4に同偏自己相関係数

破線内の領域は、標本の自己相関がゼロであるという検定の95%棄却域である。領域の外側に(偏)自己相関係数がある場合は、(偏)自己相関が少なくとも有意水準95%で存在する。図3を参照すると、12次、24次、36次において特に強い自己相関を有していることが分かる。これは1年周期の季節性が存在していることを示唆しているため、季節階差sは12とするのが適切と考えられる。そこで、本研究では、季節階差sは12とする。また、前節の単位根検定によって、1階の差分系列が定常性を有していることが分かった。そのため、d及びDは1とする。

次に、p、q、P、Qの特定について検討する。図3及び図4を参照すると、自己相関と偏自己相関ともに3期ラグの相関が比較的高く、4期ラグで初めて自己相関係数、偏自己相関係数ともに95%水準で棄却される。

SARIMAモデルでは、「おそらく原系列の」
(偏)自己相関係数のコレログラムを参照するだけではラグ数を決定できない

しかし、図3、4の「階差系列の」コレログラムを参照することにより、0≦p, q, P, Q≦3としてパラメータの目安を立てることができる(9)。p, q, P, Qについて、0~3を各変数に当てはめ

最尤法で推定し、AICが最小となるモデルを同定

5.モデルの診断
5-1残差の定常性

同定された「SARIMA」モデルが適切であれば、残差は定常性を持ち、(偏)自己相関を持たないことが分かっている

同定されたモデルの残差の自己相関係数及び偏自己相関係数のコレログラムを示す。破線の内側の領域は自己相関の値がゼロであるという検定の95%棄却域を示している。つまり、(偏)自己相関係数が破線の内側に留まっていれば、モデルは適切であると判断される。両図より、(偏)自己相関係数は破線の内側にあり、同定されたモデルによる残差が(偏)自己相関を有さないことが確認できる 以上より、残差の定常性という点からモデルの妥当性を確認できた

5-2実績値と再現値の比較

(9)沖本竜義:経済・ファイナンスデータの計量時系列分析、朝倉書店、2010
(10)山澤成康:実践計量経済学入門、日本評論社、2004






時系列解析入門
https://www.ai.u-hyogo.ac.jp/~arima/arima.pdf

定常時系列の解析に使われるARMAモデル・SARIMAモデルとは?
https://ai-trend.jp/basic-study/time-series-analysis/sarima_model/

SARIMAモデルでは合計7個の次数があります。 時系列方向のARIMA( p,d,q )に加え季節差分方向のARIMA( P,D,Q )、さらには周期 s があるためです。 これをSARIMA( p,d,q )( P,D,Q )[ s ]と表記することがあります。 それぞれの次数に対し0か1を考えるとしても、 27=128 通りのモデルを考えなければなりません。 このような組み合わせ爆発の問題を回避するため、周期 s は作図や自己相関関数をもとに決め打ちし、季節差分の P,D,Qは低く抑えることがよく行われます。

残差に関する4つのプロットを見ることができます。 左上から順に、標準化した残差の時系列プロット、残差のヒストグラムと正規分布(とKDE分布)の密度関数、残差の正規QQプロット、残差の自己相関関数です。 残差の自己相関は低くまとまっており、ほぼ問題ないと言えるでしょう。



心理統計法at放送大学

豊田秀樹 2017

第3回

MCMC法
事後分布に従うパラメータを乱数として発生させ、パラメータを確率分布として表す

HMC法 ハミルトニアンモンテカルロ法
物理学分野の力学的エネルギーの原理を応用したMCMC法の一つの方法

生成
HMC法は、同時事後分布に従う乱数を、蛇口から水が流れるように継続的に生成する

捨てる区間 burn in
乱数の数 chain

点推定量
 事後期待値 EAP
 事後中央値 MED
 事後確率最大値 MAP
  事後分布が正規分布だったら平均値と同じだし、EAP=MED=MAP
  一様分布だったら最尤値と同じ=標本平均と同じ

 点推定値の精度
  事後分布の散布度(分散や標準偏差)の小ささ=点推定値の精度


第?回

検定力分析
 適切な検定ができるようにサンプルサイズを決める
  大きすぎず小さすぎずに
  でもそれって順番逆じゃね?
  サンプルサイズは実験者が主体的に決めることだべ


第10回

有意性検定は結果がシンプルでいい
ブラックボックスでもいい
統計熟知してない人には特にそう思われやすい
有意水準を絶対的なものとして捉えちゃうので

でも本当は同じ5%でも、
サンプル数が多くてp<0.05になった場合(第一種の過誤が起きてる)もあれば、
サンプル数が小さくてp>0.05になった場合(第二種の過誤が起きてる)場合もあるのに、絶対唯一視されてしまうという危険性がある

サンプル数が多くて無意味な場合
サンプル数が少なくて意味のある差を検出できない場合


差がある確率は80%といわれると解釈は人によって分かれる
 書いた人が差があると思っても査読者はそう思わないかもしれない

 だが判断を各自が自在にできるのがベイズ推定のよきところともいえる
 サンプルサイズで結果の意味が変わることはない


ABテストの結果、AがBを上回る確率は60%でした、と報告する
BをAに切り替えるのにほぼコストがかからないのであれば、Aに切り替えようという判断がしやすい

一方、AB間に差があるとはいえない、と報告する
BをAに切り替えるのにほぼコストがかからないとはいえ、どっちつかずの報告ではAに切り替える判断はしにくい
その結果、Aに切り替えていれば60%の確率で売上が増えたかもしれない未来を捨てている、機会損失が起きている
でもそのこと自体に気づかないままに時は過ぎていく、これが怖い


第11回

オッズ比 odds = p / (1-p)

チームAがBに勝つ確率が0.2と予想されている場合は
0.2 / (1-0.2) = 1/4となる
Aが勝つと予想している人が、Bが勝つと予想している人の1/4である

オッズ比=賭けに勝った人の払い戻し倍率の逆数ともいえる
Aに1,000円賭けてAが勝った時は、外れた人の掛け金をみんなもらい
元金+4000円をもらえる


2項分布の掛け合わせ(2x2のクロス数表、男女別のブランド認知率)
 男女間にブランド認知に差はあるか?などを調べる場合は
 リスク差、リスク比、オッズ比をみる
  有意性検定のカイ二乗検定と同じ


第13回

単回帰分析における回帰直線は、目的変数と説明変数のおおまかな関係を示してくれて便利
だが説明変数では説明しきれない目的変数の特徴を考察することも大事、そのためには残差プロット

ある2つの観測データにおいて、説明変数の値は同程度なのに、残差に大きな違いがあったりする、その違いが何かはわからない
でもその違いはなぜかを考えることにより新たな別の説明変数を着想するきっかけになる

残差プロットは新しい研究視点を与えてくれることもあり、観測対象に対する有用な知見を示してくれる