「風が吹けば桶屋が儲かる」

「風が吹く」 → 「砂や埃が舞う」 → 「目の見えない人が増える」 → 「目の見えない人は三味線を買って出稼ぎにいく(当時の盲人[1]が就ける職業に由来)」 → 「三味線用の猫の皮が必要になる」 → 「(すると)猫の数が減っていく」 → 「(一方で)ネズミの数が増える」 → 「ネズミが桶をカジる」 → 「(よって)桶屋が繁盛する」...

途中どう考えてもメチャクチャな論理展開が見受けられるが、それはさておき...

このように、原因から結果が生まれ、相互に関係し合っている現象を「相関」という[2]

一般に、異なる2つの変量xA社の株)とyB社の株)の間に相互関係がある場合、すなわち、xの値に対してyの値が変化するような関係にあるとき、xyの間には相関関係があるという。

これを調べるには、xyをペア銘柄として点(x,y)を平面上にプロット(点を打つということ)していく。

このようにして出来上がったデータを相関図(散布図)という。

例として、xA社、yB社として両銘柄の間に相関があるか見てみよう。
 

例:A社の過去半年間の月末の終値が、80円、95円、110円、105円、90円、100円だったとする。B社の過去半年間の月末の終値が、80円、102円、117円、105円、99円、103円だったとする。


soukan1
横軸:xA社株価)・縦軸:yB社株価) 相関係数:0.7315


相関図を見ると、プロットした点がなんとなく一直線に並んでいるように見える。

相関係数は0.7315。この図から、両銘柄には、「それなりに高い相関関係がありそうだ」ということがおわかりいただけるだろう。
 

一般的に、相関(rで示す)の度合いは、

0.0 ≦ r ≦ 0.2 ⇒ ほとんど相関がない

0.2 ≦ r ≦ 0.4 ⇒ やや正の相関がある

0.4 ≦ r ≦ 0.7 ⇒ かなり正の相関がある

0.7 ≦ r ≦ 1.0 ⇒ 強い正の相関がある

逆に、

0.0 ≦ r ≦ -0.2 ⇒ ほとんど相関がない

0.2 ≦ r ≦ -0.4 ⇒ やや負の相関がある

0.4 ≦ r ≦ -0.7 ⇒ かなり負の相関がある

0.7 ≦ r ≦ -1.0 ⇒ 強い負の相関がある

と考えられる。
 

このように、相関には正(+)と負(-)の関係があり、一方が増えた(減った)ときに他方が増える(減る)場合は正(負)の相関があると考えられる。

係数rxyによって定義された相関係数は、

1 ≦ rxy ≦ 1

という性質を持つことが証明される。
 

この数値を算出するには、おおまかに以下の3つの手順が必要となる。

1. 相関図の中心を平均に揃える。

2. バラツキを合わせて同じモノサシで図る(尺度の異なるデータを同じ基準に合わせる)。

3.  45°ラインへの距離を測る。
 

1. 相関図の中心を平均に揃える。

まず、「相関図の中心を平均に揃える」作業を行う。

これは偏差(平均からのズレ)の計算である。それぞれの合計が0になるようにデータの書き直しを行う。

06_640x511


平均を計算する

A社:(809511012590100)÷6100

B社:(8010211710599103)÷6101

偏差を計算する

80100=-2095100=-5110100101251002590100=-101001000

A社 -20、-51025、-100 となる(平均値100からのズレ)

80101=-21102101111710116105101499101=-21031012

B社 -211164、-22 となる(平均値101からのズレ)


2.
 バラツキを合わせて同じモノサシで図る(尺度の異なるデータを同じ基準に合わせる)。

次に、「バラツキを合わせて同じモノサシで図る(尺度の異なるデータを同じ基準に合わせる)」作業を行う。

これは、四角形をイメージするとわかりやすいのだが、異なる標準偏差を持つA社とB社の株価は、このままだとバラツキが異なるため、標準偏差が大きいほうが長く、標準偏差が小さいほうが短い長方形の形をしている。

もちろん、標準偏差が同じであれば正方形になる(ここでは、式を簡略化するため、標準偏差まで計算せずに、分散まで出すことにする。共分散の計算を行う)。

 07_640x284

これを正方形に直して同じモノサシで図れるようにする。

正方形に直すことによって、正方形の左下から右上に線を引くと、45°のキレイな直線が引けるようになる。

プロットしたA社とB社の株価の交差する点に向かって、縦×横でそれぞれの四角形の面積を求め、この45°ラインへの距離を測ってみればよい。

共分散の式は、

共分散 = (A社の株価-A社の平均株価)×(B社の株価-B社の平均株価)の合計÷株価データ数となる。


分散を計算する

A社 (-20)×(-20)、(-5)×(-5)、(10)×(10)、(25)×(25)、(-10)×(-10)、(0)×(0

400251006251000

B社 (-21)×(-21)、1×116×164×4、(-2)×(-2)、2×2

44112561644

偏差どうしの積を計算する

A社:400251006251000

B社:44112561644

400×44117640025×125100×25625600625×1610000100×44000×40

A社とB社の分散の合計を計算する

A社の分散は、4002510062510001250

B社の分散は、44112561644722

A社:1250B社:722

ここまでの計算を表にまとめると、以下のようになる。

soukan2
共分散は右下の695になる。A社の偏差とB社の偏差を掛けたものが一番右の列。計算を簡略化したが、平均からのズレ同士を掛けたものを全部足した数字が共分散:695である。
 

3.  45°ラインへの距離を測る。

最後に、「45°ラインへの近さを測る」作業を行う。

3ステップでは、A社株価とB社株価の交差する点、すなわちプロットした点までの誤差どうしを掛け算することで四角形の面積を求める。

08_640x640

すでに共分散を使って異なる2つの変量xA社株価)とyB社株価)を算出したが、ここで1つ問題が生じる。

それは、「共分散の値は使用するデータの単位に依存してしまう」という問題である(たとえば身長と体重、体重と食べる量など)。よって、共分散の値だけで相関の有無を議論することは非常に危険なことである。

そのため、相関を、単位に依存しないように客観的に示す値が必要となる。

手順としては係数rxyで示される相関係数(Pearsonの積率相関係数)を使って相関を客観的に評価することになる。これがいわゆる3番目のステップ「45°ラインへの近さを測る」である。

イメージとしては、A社株価とB社株価の交差するポイント、すなわちプロットした点までの誤差どうしを掛け算することで四角形の面積を求める。

相関係数の式は、

相関係数 = (A社の株価とB社の株価の共分散)÷(A社の株価の標準偏差×B社の株価の標準偏差)となる。

= A社とB社の分散の合計÷√(A社の株価の分散)×(B社の株価の分散)

= 695÷√1250×722

= 695÷√902500

= 695÷950

= 0.731579

よって、相関係数は 0.731579 となる。

soukan3

表計算ソフトを使えば一瞬で計算できるため、上記の計算は覚えなくてよいだろう。

ただし、上記に行った計算の過程から非常に多くの弱点を見つけることができる。

ペアトレード(サヤ取り投資)では「相関係数」を重視して取引をする人が多いと思うのだが、「相関係数」には実は多くの問題点がある。

まず、相関係数は元のデータ(相関図)を45°のラインに合うように変換し算出した値のため、「元のデータの傾きは相関係数からはわからない」ということ。すなわち、一方のデータ(A社の株価)が、他方のデータ(B社の株価)に与える変化の大きさがわからないということである。

次に、相関係数は、「直線(一次関数)の関係しか表すことができない」ということ。よって、Uの字を描くような曲線(二次関数)の相関図や2系列の直線関係をもつ相関図、グループ同士が2つの塊になっている相関図などは考慮されていないということ。

3番目に、データ数が少なすぎると、「偶然」の発生する確率が高くなってしまう。正規分布の箇所で説明したが、データ数は少なすぎると本来の必然性が正しく反映されない可能性がある。

4番目に、相関係数は相関図(散布図)と合わせて用いるべきである。これは上述した3つの理由でもあるが、元のデータがどのような形状になっているかを確認しなければ、相関係数だけでは読み取れなかった情報に気付かない可能性があるためだ。

最後に、相関係数は、必ずしも「因果関係を表した数値ではない」ということ。冒頭で説明した「風が吹くと桶屋が儲かる」の話を思い出してほしいのだが、たとえば、「健康食品を買う人」と「風邪をひきやすい人」の間に高い相関関係があれば、健康食品はインチキだということになってしまう。むしろ話は逆で、「風邪をひきやすい人」ほど「健康食品を買う傾向にある」のかもしれない。あるいは、「メガネをかける人」と「試験の成績」も同様である。これも話は逆で、「目が悪くなるくらい勉強したから成績がよかった」のかもしれない。メガネのCM等で、「このメガネをかければ成績が良くなります」という宣伝があったら、おかしいと疑ったほうがよい。このあたりは、いくらでも相関を利用して嘘をつくこともできてしまうので注意が必要である。

さて、最後に、t分布表[3] を使って相関係数の検定を行う。この表と比較して、計算値(絶対値)が検定表より大きければ、「変量xyの間には相関関係がある」ということになる。なお、「0.05%≦計算値」ならば「有意」、「0.01%≦計算値」ならば「高度に有意」といい、一般的に計算値の右肩に「*」や「**」をつける。

例の場合、株価データは6個なので自由度は462、相関係数の場合は自由度が-2になる[3])となる。計算した相関係数は0.731579。自由度462)は、相関係数検定表[4]よりそれぞれ0.950000.05)、0.990000.01)となる。

計算した相関係数の値は0.731579なので、「0.950000.731579」×→「0.950000.731579」○⇒「有意」でない、「0.990000.731579」×→「0.990000.731579」○⇒「高度に有意」でない、となる。

以上により、検定の結果、xyの間には残念ながら「相関係数がある」とはいえないことがわかる。

次は、「回帰分析」を使ってプロットした株価データが、回帰直線にどのくらいの精度で説明されているか説明を行う。
 

[1] 「盲人」という表現が差別用語にあたるか調べてみたが、そのような放送倫理規定はないようなので、江戸時代当時の表現を用いることにした。なお、現在の表現では「視覚障がい者」の方に該当する言葉だが、当ブログでは「目の見えない人」と記載することにした(参考:「レファレンス協同データベース」)。

[2] 相関は、必ずしも因果関係が証明されるものではない。数字だけを過信せずに言葉と言葉の行間もしっかり読むこと。 

[3] 相関係数を出すためには、変量xyという2つのデータの平均を基準としており、これらの平均は、全ての対象データの計算結果から導かれる。この2つの値は、標本全体からの計算結果として導かれるため、実際は、この2つの平均分を抜いた「n2」が検定の対象となる。このように、ある何らかの関係式において対象の数から、計算によって得られる値の数を引いた値を「自由度」という。したがって、相関係数のt分布は、自由度「n2」のt分布に従うことになる。

[4] 相関係数検定表は無相関検定という手法に基づいて作成されたもの。株取引でいえば、過去半年間のデータ数が20営業日×6か月だとすると120本、1年間だと240本。120本のデータを何らかの相関関係があるというためには0.18以上、240本だと0.16以上あれば何らかの相関があると認められる(以外とハードルが低い)。以前、【正規分布】のところでも書いたが、ここでもやはり最低でも過去半年間くらいのデータまでは遡って検証したほうがよさそうだということがわかる。
 

にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村

金融・投資 ブログランキングへ