はじめに

確率や統計の議論では、「相関がある」と「因果関係がある」は違う、とよく言われる。しかし閉じた系の中でシミュレーションを行うと、相関が単なる偶然ではなく、構造そのものから生まれていることが見えてくる。
今回は、五つの駅だけからなる単純化された交通ネットワークを考える。
- 立川駅
- 池袋駅
- 新宿駅
- 東京駅
- 品川駅
各旅客は、
- 現在地点をランダムに選ぶ
- 目的地点をランダムに選ぶ
- 最短経路で移動する
というルールに従う。
これは言い換えると次の重要なルールと同値である。
移動前と移動後の駅が隣接していなければ、必ず「新宿駅」を経由する。
たとえば、
- 池袋⇔新宿⇔品川
- 品川⇔新宿⇔立川
- 立川⇔新宿⇔東京
のような移動になる。
シミュレーション条件
100人の旅客を発生させ、それぞれが移動する。
このとき、
- 各駅の訪問回数
- 各経路の利用回数
を記録する。
対象となる経路は、
- 立川⇔新宿
- 池袋⇔新宿
- 新宿⇔東京
- 新宿⇔品川
- 池袋⇔東京
- 東京⇔品川
である。
さらに、このシミュレーションを10000回繰り返す。
シミュレーション結果

交通量のグラフ
結果として、最も訪問回数が多くなるのは当然ながら 新宿駅 である。
これは単純に「隣接していない駅同士の移動では必ず新宿を通る」というルールが存在するためだ。新宿駅は、単なる駅ではなく「ネットワークの中心ノード」として機能している。
「立川⇔新宿」が最も利用される理由
興味深いのは、経路利用数である。
シミュレーションでは、
「立川⇔新宿」
が最も多く利用された。
立川駅を含む経路を考えると、
- 立川⇔新宿
- 立川⇔(新宿)⇔池袋
- 立川⇔(新宿)⇔東京
- 立川⇔(新宿)⇔品川
など、ほぼすべてで新宿を経由する。
「立川に関係する移動は、新宿⇔立川を必ず踏む」
という構造になっている。
相関係数を調べる


縦軸:「新宿⇔品川間」の利用率、横軸:「新宿⇔東京間」の利用率
毎回のシミュレーションで、「新宿⇔東京間」の利用率と「新宿⇔品川間」の利用率を集計してペアにすると、(縦軸:新宿⇔品川、横軸:新宿⇔東京)の座標で散布図を描くことができる。
相関係数は負になる。新宿⇔東京間で利用が多いと、新宿⇔品川間で利用が少なくなる傾向にあるという結果である。
重要なことは、
「相関がある」
「因果がある」
「構造が理解できる」
それぞれが別問題ということである。
今回の系は完全に閉じており、ルールも明示されている。
相関に原因が存在すること自体は確実
しかし、その原因がどのように全体ネットワークの中で作用しているのかは、直感だけでは理解できない。
- 全体の旅客分配
- 起点と終点の偏り
- 経由駅の集中
- 排他的な需要
などが複雑に絡み合い、結果として負の相関が現れる。
補論:社会学の因果推論で重要な考え方
反実仮想(counterfactual)
現代の因果推論では非常に重要です。たとえば「大学に行ったから所得が増えた」と言うためには、
もし同じ人が大学に行かなかったらどうなったかを比較しなければならない。
しかし現実には、
- 行った世界
- 行かなかった世界
これが因果推論の根本問題です。
疑似実験
社会では完全実験が難しいため「実験っぽい状況」を探します。- 制度変更の前後比較
- 地域差
- 年齢による線引き
- 抽選制度
ネットワーク効果
上の鉄道シミュレーションに近い話です。社会では、人は独立していない。
- 友人が投票すると自分も投票しやすい
- SNSで炎上が連鎖する
- 流行が拡散する
独立事象を仮定できないことが非常に多い。
「因果がある」のに説明できないことがある
シミュレーションの最後の話は、かなり社会学的です。「なぜその強さで相関が出るのか」が直感的にはわからない。
社会でも同じです。
- 都市化と孤独
- 学歴と政治意識
- SNSと分断
- 孤独だからSNSを見る
- SNSを見るから孤独になる


コメント