ペアトレードブログ

難しいことをわかりやすく。次に必要としてくれる誰かのために。

統計関連

ペアトレードブログ


pairtrade

このブログはマーケットニュートラル投資の古典的手法であるペアトレードについて説明したものです。

【ペアトレード関連】

ペアトレードの本質

ペアトレードのメリットとデメリット

銘柄選択の基準:ステップ1
銘柄選択の基準:ステップ1+α

銘柄選択の基準:ステップ2-A【単純比較型相対価値分析】
銘柄選択の基準:ステップ2-A【単純比較型相対価値分析】+α
or
銘柄選択の基準:ステップ2-B【指数連動型相対価値分析】
銘柄選択の基準:ステップ2-B【指数連動型相対価値分析】+α

銘柄選択の基準:ステップ3
銘柄選択の基準:ステップ3+α

銘柄選択の基準:ステップ4
銘柄選択の基準:ステップ4+α

※補足事項

FX(外国為替)を使ったサヤ取り

一物一価と二物二価

相関係数の弱点とβ値の重要性

α値の算出方法と組み合わせの自由度

ポートフォリオの最適化

ペアトレードの改善点

※関連業者一覧

関連業者一覧 

【統計関連】


統計学基礎①

統計学基礎②

【参考文献一覧】

参考文献一覧 

 

にほんブログ村 先物取引ブログ サヤ取りへ

統計学基礎:まとめ②

ここでは、【相関分析と相関係数】、【回帰分析と回帰係数】、【回帰方程式と決定係数】の要点をまとめておきます。
 

相関分析と相関係数

一般に、異なる2つの変量xyの間に相互関係がある場合、すなわち、xの値に対してyの値が変化するような関係にあるとき、xyの間には相関関係があるという。相関は「変量xyの相関の強さを示す数値」(相関係数)で表すことができる。

相関には正(+)と負(-)の関係があり、一方が増えた(減った)ときに他方が増える(減る)場合は正(負)の相関があると考えられる。

なお、相関係数は相関図(散布図)と合わせて用いるべきだと考えられる。これは、元のデータがどのような形状になっているかを確認しないと相関係数だけでは読み取れなかった情報に気付かない可能性があるため。

回帰分析と回帰係数

回帰分析は、相関係数からは読み取れなかった「変量xyがどのくらいの割合で増加(減少)するかを表す」ために行う。相関図(散布図)から回帰直線の方程式を算出すると、「いくつかの変数があったときに、ある変数(X)を他の変数(Y)でどれくらい説明できるか」がわかる。

回帰方程式と決定係数

決定係数とは、回帰方程式の精度を表す指標。使ったデータの信頼性、精度を分析するために使う。すなわち、回帰直線を使って相関図(散布図)の分布をどの程度うまく説明できているかを表す数値である。
 

以上に相関分析から決定係数の算出まで説明しましたが、株式関連の書籍で統計について言及する際、相関係数や決定係数について詳しく説明しているテキストが見当たらなかったので、参考までに書いてみました。

なお、回帰分析では決定係数を算出することによって、データがどのくらい回帰直線にうまく当てはまっているかを確認しました。これは、スクリーニングの際、ペア銘柄候補がたくさん出てしまったときに、これから投資するペア銘柄(ポートフォリオモデル)の評価基準として参考にしていただければと思います。

にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村

金融・投資 ブログランキングへ

統計学基礎:回帰方程式と決定係数

決定係数とは、回帰方程式の精度を表す指標である。

使用したデータは本当に正しかったのか、精度はどうなのか、というところまできちんと分析する必要がある。すなわち、使用した株価データの分布が回帰直線にうまくあてはまるかどうかを確認するために用いる係数である。

手順は、

まず、yB社の株価)の変動を求める。

次に、残差平方和(残差2)を求める。

最後に、決定係数を求める。

kettei

まず、yB社の株価)の変動を求める。

yの変動=(各データ-平均値)の平方和

yの変動=(-212+(12+(162+(42+(-22+(22

yの変動=441+1+256+16+4+4

yの変動=722


次に、残差平方和(残差
2)を求める。

残差平方和=(yの値-回帰方程式より求めたyの値)2

残差平方和={80-(0.556×8045.4}2{102-(0.556×9545.4}2{117-(0.556×11045.4}2{105-(0.556×12545.4}2{99-(0.556×9045.4}2{103-(0.556×10045.4}2

残差平方和=335.58


決定係数=(
yの変動-残差平方和)÷yの変動

決定係数=(722335.58)÷722

決定係数=386.42÷722

決定係数=0.535208


以上により、決定係数は≒
0.535208であることがわかった。

したがって、回帰方程式は目的変量のおよそ5354%程度しか説明できていないことがわかる。

決定係数は01の間の数で、1に近いほどデータをよく説明していることになる。

したがって、この回帰直線は残念ながらうまく株価データにあまり上手く当てはまっていないと判断することができる。

09_640x381_2

にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村

金融・投資 ブログランキングへ

統計学基礎:回帰分析と回帰係数


相関分析の説明では、相関は「変量
xyの相関の強さを示す数値」(相関係数)であることを説明した。

回帰分析では、相関係数からは読み取れなかった「変量xyがどのくらいの割合で増加(減少)するかを表す」ために、回帰直線という直線を使って分析する作業を行う。

回帰直線を分析すると、「いくつかの変数(株価データ)があったときに、ある変数(X)を他の変数(Y)でどれくらい説明できるか」がわかる。

これから求める「回帰方程式」は相関図のデータに最も良くあてはまる直線となるが、その一方で、実際には各データに対して必ず誤差が存在している。

回帰式の推定に用いられる最小二乗法は、求める直線とデータとのy軸でみた誤差(残差)dの二乗和(つまり誤差の面積)が最小になるように直線を求める方法となる。

13_640x444

回帰式は通常、

yaxbで表す。
 

例:投資用マンションと最寄駅までの距離を調べたところ、駅前(徒歩0分)の投資物件の平均利回りが10%だったとする。調査の結果、駅からの距離が1分伸びるごとに0.5%ずつ利回りが低下することがわかったとする。

マンションの利回りをy、最寄駅までの距離をxとした場合、この関係は以下のようにまとめることができる。

予測値y^10.00.5x

これが回帰式となる。変量Xを使って変量Yの増加・減少を説明するための式となる。

この式を使うと、駅からの距離が徒歩1分→平均利回り9.5%、2分→平均利回り9.0%、3分→平均利回り8.5%、4分→平均利回り8%、5分→平均利回り7.5と予測することができる。

※これはあくまでも例なので、20分歩くと利回り0%になって貸主が無料で部屋を貸してくれるわけではない、念のため。

これはかなり計算が長くなるので、前の相関係数の説明で使った表を参照してほしい。

例:A社の過去半年間の月末の終値が、80円、95円、110円、105円、90円、100円だったとする(A社の平均100円)。B社の過去半年間の月末の終値が、80円、102円、117円、105円、99円、103円だったとする(B社の平均株価101円)。

A社をxB社をyとした場合、x社の株価データを使ってy社の株価のデータの増加・減少を分析する。

kaiki1

回帰式を使って、回帰係数の数値を求める。

回帰係数は「b」で表す。
 

回帰係数bは、

b = XYの分散の和÷Xの分散で求められる。

b = 695÷1250

b = 0.556

回帰式は、

yyの平均=bxxの平均)で求められる。

y101 = 0.556x55.6

y = 0.556x55.6101

y = 0.556x45.4

となる。
 

にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村

統計学基礎:相関分析と相関係数

「風が吹けば桶屋が儲かる」

「風が吹く」 → 「砂や埃が舞う」 → 「目の見えない人が増える」 → 「目の見えない人は三味線を買って出稼ぎにいく(当時の盲人[1]が就ける職業に由来)」 → 「三味線用の猫の皮が必要になる」 → 「(すると)猫の数が減っていく」 → 「(一方で)ネズミの数が増える」 → 「ネズミが桶をカジる」 → 「(よって)桶屋が繁盛する」...

途中どう考えてもメチャクチャな論理展開が見受けられるが、それはさておき...

このように、原因から結果が生まれ、相互に関係し合っている現象を「相関」という[2]

一般に、異なる2つの変量xA社の株)とyB社の株)の間に相互関係がある場合、すなわち、xの値に対してyの値が変化するような関係にあるとき、xyの間には相関関係があるという。

これを調べるには、xyをペア銘柄として点(x,y)を平面上にプロット(点を打つということ)していく。

このようにして出来上がったデータを相関図(散布図)という。

例として、xA社、yB社として両銘柄の間に相関があるか見てみよう。
 

例:A社の過去半年間の月末の終値が、80円、95円、110円、105円、90円、100円だったとする。B社の過去半年間の月末の終値が、80円、102円、117円、105円、99円、103円だったとする。


soukan1
横軸:xA社株価)・縦軸:yB社株価) 相関係数:0.7315


相関図を見ると、プロットした点がなんとなく一直線に並んでいるように見える。

相関係数は0.7315。この図から、両銘柄には、「それなりに高い相関関係がありそうだ」ということがおわかりいただけるだろう。
 

一般的に、相関(rで示す)の度合いは、

0.0 ≦ r ≦ 0.2 ⇒ ほとんど相関がない

0.2 ≦ r ≦ 0.4 ⇒ やや正の相関がある

0.4 ≦ r ≦ 0.7 ⇒ かなり正の相関がある

0.7 ≦ r ≦ 1.0 ⇒ 強い正の相関がある

逆に、

0.0 ≦ r ≦ -0.2 ⇒ ほとんど相関がない

0.2 ≦ r ≦ -0.4 ⇒ やや負の相関がある

0.4 ≦ r ≦ -0.7 ⇒ かなり負の相関がある

0.7 ≦ r ≦ -1.0 ⇒ 強い負の相関がある

と考えられる。
 

このように、相関には正(+)と負(-)の関係があり、一方が増えた(減った)ときに他方が増える(減る)場合は正(負)の相関があると考えられる。

係数rxyによって定義された相関係数は、

1 ≦ rxy ≦ 1

という性質を持つことが証明される。
 

この数値を算出するには、おおまかに以下の3つの手順が必要となる。

1. 相関図の中心を平均に揃える。

2. バラツキを合わせて同じモノサシで図る(尺度の異なるデータを同じ基準に合わせる)。

3.  45°ラインへの距離を測る。
 

1. 相関図の中心を平均に揃える。

まず、「相関図の中心を平均に揃える」作業を行う。

これは偏差(平均からのズレ)の計算である。それぞれの合計が0になるようにデータの書き直しを行う。

06_640x511


平均を計算する

A社:(809511012590100)÷6100

B社:(8010211710599103)÷6101

偏差を計算する

80100=-2095100=-5110100101251002590100=-101001000

A社 -20、-51025、-100 となる(平均値100からのズレ)

80101=-21102101111710116105101499101=-21031012

B社 -211164、-22 となる(平均値101からのズレ)


2.
 バラツキを合わせて同じモノサシで図る(尺度の異なるデータを同じ基準に合わせる)。

次に、「バラツキを合わせて同じモノサシで図る(尺度の異なるデータを同じ基準に合わせる)」作業を行う。

これは、四角形をイメージするとわかりやすいのだが、異なる標準偏差を持つA社とB社の株価は、このままだとバラツキが異なるため、標準偏差が大きいほうが長く、標準偏差が小さいほうが短い長方形の形をしている。

もちろん、標準偏差が同じであれば正方形になる(ここでは、式を簡略化するため、標準偏差まで計算せずに、分散まで出すことにする。共分散の計算を行う)。

 07_640x284

これを正方形に直して同じモノサシで図れるようにする。

正方形に直すことによって、正方形の左下から右上に線を引くと、45°のキレイな直線が引けるようになる。

プロットしたA社とB社の株価の交差する点に向かって、縦×横でそれぞれの四角形の面積を求め、この45°ラインへの距離を測ってみればよい。

共分散の式は、

共分散 = (A社の株価-A社の平均株価)×(B社の株価-B社の平均株価)の合計÷株価データ数となる。


分散を計算する

A社 (-20)×(-20)、(-5)×(-5)、(10)×(10)、(25)×(25)、(-10)×(-10)、(0)×(0

400251006251000

B社 (-21)×(-21)、1×116×164×4、(-2)×(-2)、2×2

44112561644

偏差どうしの積を計算する

A社:400251006251000

B社:44112561644

400×44117640025×125100×25625600625×1610000100×44000×40

A社とB社の分散の合計を計算する

A社の分散は、4002510062510001250

B社の分散は、44112561644722

A社:1250B社:722

ここまでの計算を表にまとめると、以下のようになる。

soukan2
共分散は右下の695になる。A社の偏差とB社の偏差を掛けたものが一番右の列。計算を簡略化したが、平均からのズレ同士を掛けたものを全部足した数字が共分散:695である。
 

3.  45°ラインへの距離を測る。

最後に、「45°ラインへの近さを測る」作業を行う。

3ステップでは、A社株価とB社株価の交差する点、すなわちプロットした点までの誤差どうしを掛け算することで四角形の面積を求める。

08_640x640

すでに共分散を使って異なる2つの変量xA社株価)とyB社株価)を算出したが、ここで1つ問題が生じる。

それは、「共分散の値は使用するデータの単位に依存してしまう」という問題である(たとえば身長と体重、体重と食べる量など)。よって、共分散の値だけで相関の有無を議論することは非常に危険なことである。

そのため、相関を、単位に依存しないように客観的に示す値が必要となる。

手順としては係数rxyで示される相関係数(Pearsonの積率相関係数)を使って相関を客観的に評価することになる。これがいわゆる3番目のステップ「45°ラインへの近さを測る」である。

イメージとしては、A社株価とB社株価の交差するポイント、すなわちプロットした点までの誤差どうしを掛け算することで四角形の面積を求める。

相関係数の式は、

相関係数 = (A社の株価とB社の株価の共分散)÷(A社の株価の標準偏差×B社の株価の標準偏差)となる。

= A社とB社の分散の合計÷√(A社の株価の分散)×(B社の株価の分散)

= 695÷√1250×722

= 695÷√902500

= 695÷950

= 0.731579

よって、相関係数は 0.731579 となる。

soukan3

表計算ソフトを使えば一瞬で計算できるため、上記の計算は覚えなくてよいだろう。

ただし、上記に行った計算の過程から非常に多くの弱点を見つけることができる。

ペアトレード(サヤ取り投資)では「相関係数」を重視して取引をする人が多いと思うのだが、「相関係数」には実は多くの問題点がある。

まず、相関係数は元のデータ(相関図)を45°のラインに合うように変換し算出した値のため、「元のデータの傾きは相関係数からはわからない」ということ。すなわち、一方のデータ(A社の株価)が、他方のデータ(B社の株価)に与える変化の大きさがわからないということである。

次に、相関係数は、「直線(一次関数)の関係しか表すことができない」ということ。よって、Uの字を描くような曲線(二次関数)の相関図や2系列の直線関係をもつ相関図、グループ同士が2つの塊になっている相関図などは考慮されていないということ。

3番目に、データ数が少なすぎると、「偶然」の発生する確率が高くなってしまう。正規分布の箇所で説明したが、データ数は少なすぎると本来の必然性が正しく反映されない可能性がある。

4番目に、相関係数は相関図(散布図)と合わせて用いるべきである。これは上述した3つの理由でもあるが、元のデータがどのような形状になっているかを確認しなければ、相関係数だけでは読み取れなかった情報に気付かない可能性があるためだ。

最後に、相関係数は、必ずしも「因果関係を表した数値ではない」ということ。冒頭で説明した「風が吹くと桶屋が儲かる」の話を思い出してほしいのだが、たとえば、「健康食品を買う人」と「風邪をひきやすい人」の間に高い相関関係があれば、健康食品はインチキだということになってしまう。むしろ話は逆で、「風邪をひきやすい人」ほど「健康食品を買う傾向にある」のかもしれない。あるいは、「メガネをかける人」と「試験の成績」も同様である。これも話は逆で、「目が悪くなるくらい勉強したから成績がよかった」のかもしれない。メガネのCM等で、「このメガネをかければ成績が良くなります」という宣伝があったら、おかしいと疑ったほうがよい。このあたりは、いくらでも相関を利用して嘘をつくこともできてしまうので注意が必要である。

さて、最後に、t分布表[3] を使って相関係数の検定を行う。この表と比較して、計算値(絶対値)が検定表より大きければ、「変量xyの間には相関関係がある」ということになる。なお、「0.05%≦計算値」ならば「有意」、「0.01%≦計算値」ならば「高度に有意」といい、一般的に計算値の右肩に「*」や「**」をつける。

例の場合、株価データは6個なので自由度は462、相関係数の場合は自由度が-2になる[3])となる。計算した相関係数は0.731579。自由度462)は、相関係数検定表[4]よりそれぞれ0.950000.05)、0.990000.01)となる。

計算した相関係数の値は0.731579なので、「0.950000.731579」×→「0.950000.731579」○⇒「有意」でない、「0.990000.731579」×→「0.990000.731579」○⇒「高度に有意」でない、となる。

以上により、検定の結果、xyの間には残念ながら「相関係数がある」とはいえないことがわかる。

次は、「回帰分析」を使ってプロットした株価データが、回帰直線にどのくらいの精度で説明されているか説明を行う。
 

[1] 「盲人」という表現が差別用語にあたるか調べてみたが、そのような放送倫理規定はないようなので、江戸時代当時の表現を用いることにした。なお、現在の表現では「視覚障がい者」の方に該当する言葉だが、当ブログでは「目の見えない人」と記載することにした(参考:「レファレンス協同データベース」)。

[2] 相関は、必ずしも因果関係が証明されるものではない。数字だけを過信せずに言葉と言葉の行間もしっかり読むこと。 

[3] 相関係数を出すためには、変量xyという2つのデータの平均を基準としており、これらの平均は、全ての対象データの計算結果から導かれる。この2つの値は、標本全体からの計算結果として導かれるため、実際は、この2つの平均分を抜いた「n2」が検定の対象となる。このように、ある何らかの関係式において対象の数から、計算によって得られる値の数を引いた値を「自由度」という。したがって、相関係数のt分布は、自由度「n2」のt分布に従うことになる。

[4] 相関係数検定表は無相関検定という手法に基づいて作成されたもの。株取引でいえば、過去半年間のデータ数が20営業日×6か月だとすると120本、1年間だと240本。120本のデータを何らかの相関関係があるというためには0.18以上、240本だと0.16以上あれば何らかの相関があると認められる(以外とハードルが低い)。以前、【正規分布】のところでも書いたが、ここでもやはり最低でも過去半年間くらいのデータまでは遡って検証したほうがよさそうだということがわかる。
 

にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村

金融・投資 ブログランキングへ
プロフィール

ユーディー

記事検索
記事一覧
QRコード
QRコード