アクチュアリーが学ぶべき英語・英単語

今回は、アクチュアリーが英語を使うときに役立つかもしれないリンク集をまとめてみます。
英語力を高めたい方は参考にしてみてください。
f:id:r_std:20190120060713p:plain

Wikipediaの略語集

保険業界に限定されるものではないですが、ビジネス・金融関係の略語が充実しています。
List of business and finance abbreviations - Wikipedia

ABIのglossary

保険業界団体ABIのまとめている用語集です。
https://www.abi.org.uk/data-and-resources/tools-and-resources/glossary/

IRMIのglossary

International Risk Management Instituteの用語集です。
収録されている用語は多く、Googleなどで検索するとよくでてきますが、内容は難しいです。
Glossary | IRMI.com

NIBAのglossary

ブローカー団体の用語集です。用語の量はやや少なく、一般的なものが多いです。
Insurance Glossary | NIBA - National Insurance Brokers Association

Munich Reのglossary

専門的な再保険用語について解説があります。かなり細かい用語までカバーされています。
https://www.munichre.com/ca/non-life/business-and-solutions/knowledge-and-tools/reinsurance-glossary/index.html

トーア再保険再保険用語集

Munich Reの用語集と同じく再保険の用語集ですが、こちらは日本語対日本語で詳しく解説されています。
トーア再保険株式会社:用語集

IFRS17号に関するKPMGの用語集

KPMGの用語集です。IFRS17号に登場する主要な用語が解説されています。
https://home.kpmg.com/xx/en/home/insights/2018/02/ifrs17-transition-trg-newsletter-insurance-glossary.html

Investopedia

資産運用領域の専門的な単語について詳しく解説されています。
Investopedia: Sharper insight, better investing.

英単語の内容を確認する際はできるだけ複数のソースを参照することが肝要と思われます。

Rで異常値検出してみた(MT法、One Class SVM)(スイス銀行紙幣③)

今回は初心に帰ってスイス銀行紙幣を取り扱います。使用するデータは以前の記事と同じものです。
r-std.hatenablog.com
f:id:r_std:20160503082222p:plain

真札と偽札が含まれるスイス銀行紙幣のデータについて、線形判別分析、二次判別分析を行って識別したところ、高い精度で識別を行うことができました。以前の記事では誤識別されたデータ(下記散布図のピンク色の点)について、「真札中の異常値である」と評価をしていました。
f:id:r_std:20160504100515p:plain
本記事では当該データが本当に異常値であるかを検証します。真札のデータのみが得られている状況から異常値の特定を行い、当該データが異常値として検出されることを確認します。今回は2つの方法を用いて検証します。

1.MT(マハラノビス・タグチ)法

名前のとおりマハラノビス距離を用いて群団の重心から遠いデータを異常値として判定する方法になります。手法の詳細については下記リンクが分かりやすいです。
http://heartland.geocities.jp/ecodata222/ed/edj1-2-2-4.html

スイス銀行紙幣の真札データに適用したところ次の散布図の青点のとおり異常値を検出しました。(異常値のマハラノビス距離は3以上と設定しています。)f:id:r_std:20180708131227p:plain
前述の誤識別された点(既出の図ではピンクの点)が、MT法では異常値として検出されていることが確認できます。(diagonalが最小の点、つまり散布図の一番下の列でx軸に張り付いている青点が誤識別された点になります。)

2.One Class SVM

SVM教師なし学習として用いる方法です。カネール関数を利用してデータを高次元空間に写像し、原点からの距離を最大化するように識別境界を設定します。通常のSVMでは2群のデータの間に識別境界を描こうとしますが、One Class SVMでは原点とデータとの間に識別境界を描こうとする特徴があります。手法の詳細については下記リンクが分かりやすいです。
datachemeng.com
スイス銀行紙幣の真札データに適用したところ次の散布図の緑点のとおり異常値を検出しました。(sigma=0.01,mu=0.001)
f:id:r_std:20180708161409p:plain
こちらも前述の誤識別された点(散布図の一番下の列でx軸に張り付いている緑点)が、異常値として検出されていることが確認できます。

3.MT法とOne Class SVM法の違い

スイス銀行紙幣では両者の違いがいまひとつよくわからなかったので、次のような仮想のデータを作成してみました。平均100程度の2変量正規乱数を大量に用意し、ノイズデータとして平均150程度の2変量正規乱数を少量とY=250-Xとなるような関係を持つデータを追加してみました。
f:id:r_std:20180708173631p:plain
MT法の結果は次の通りです。愚直にデータの重心からの距離を用いて評価していることが伺えます。
f:id:r_std:20181229080515p:plain
マハラノビス距離の分布は次の通りです。追加したノイズデータについてマハラノビス距離が大きいことが観察できます。
f:id:r_std:20180708172348p:plain

一方でOne Class SVMの結果は次の通りです。
f:id:r_std:20180709013032p:plain
各データの類似性を捉えて異常値を評価できていることが観察されます。識別境界を引いてみたところ次のようになりました。
f:id:r_std:20180709012958p:plain

もうひとパターンデータを用意してみます。
f:id:r_std:20180709232346p:plain

MT法の場合
f:id:r_std:20180709232500p:plain

One Class SVM法の場合
f:id:r_std:20180709232540p:plain

4.両者の使い分けの注意点

  1. データが一定の分布に従っている場合にはMT法が有効と思われます。
  2. 一方で、複数のデータが混じっていたり、データの散らばりが大きい場合はOne Class SVMの方が有効と思われます。

今回使用したソースコードは次の通りです。

Outliers

Outliers2

アクチュアリー試験の勉強法(一次試験)

本記事ではアクチュアリー試験(一次試験)の勉強法をまとめます。初受験の方、勉強科目を迷っている方向けに、受験科目の選び方、勉強の進め方や参考書の情報などをまとめます。個人の主観が含まれますのでお含みおきください。

1.受験する科目の選び方、順番

一次試験の科目数は5科目あり、どの順番で受験するが非常に重要になります。
f:id:r_std:20180505151051j:plain
初受験者の方はまず、数学の合格を目指すべきです。手のつけやすさを考えると会計・経済・投資理論(KKT)が最も勉強しやすい科目ですが、数学を突破できないと生保数理、年金数理、損保数理に手をつけられなくなります。数学が専攻でない方、文系の方は特に、数学の攻略を最優先事項とすべきです。

数学に合格した後は生保数理または損保数理に手を付けるべきです。年金数理は難易度が高く、生保数理の知識も問われやすいため、生保数理を学習してから取り組むべき科目です。

損保数理では一部、生保数理に関連した知識を使う問題(積立保険の年金現価の計算など)がありますが、必ずしも事前に生保数理を完璧にしておく必要はありません。

(生保数理・年金数理)(数学・損保数理)の組み合わせについては、内容の親和性が非常に高いので、同時に受験するあるいは期間を空けずに受験する戦略が適切です。会計・経済・投資理論(KKT)は他の科目との関連性が低いため、どのタイミングで受験してもかまいません。

2.各科目の勉強方法

(1)数学

数学の勉強法としては、「弱点克服大学生の確率・統計」モデリングの教科書日本アクチュアリー会から販売されている水色の本)を一通り勉強した後、過去問演習にあたるのがおすすめです。

「弱点克服大学生の確率・統計」は例題と解説が充実しているため、独学でも勉強を進めやすい参考書です。学部教養レベルの数学の知識があれば全く問題なく読めますが、文系数学までの方にも読みやすい内容になっています。

弱点克服 大学生の確率・統計

弱点克服 大学生の確率・統計

教科書としては指定の教科書ではなく「統計学入門」を使いました。分布の性質や検定のやり方を調べる際に、辞典のように参照して利用しました。
統計学入門 (基礎統計学Ⅰ)

統計学入門 (基礎統計学Ⅰ)

  • 発売日: 1991/07/09
  • メディア: 単行本

数学の試験は確率論統計論モデリングの3分野から構成されます。勉強の順番は、確率論→統計論→モデリングの順で進めていくことが無難です。

確率論については、代表的な確率分布の確率密度関数、分布関数、期待値、分散、積率母関数を自力で算出できることが必須となります。おのずと手が動くまで練習することをお勧めします。

統計論については、基本的な統計的検定や区間推定、検出力などの問題を押さえれば合格点の水準に達することが可能です。検定で用いる統計量は直前の暗記も重要となるので、自分なりに整理しておくことが肝要です。

モデリングについては出題量は少ないものの点差が付きやすい部分であるため、アクチュアリー会の水色の教科書や過去問を一周しておくことが必要です。

(2)生保数理

生保数理は指定教科書と過去問を中心に勉強しました。生保数理の記号にいち早く慣れることが勉強の鍵となります。

教科書は上巻と下巻がありますが、上巻の第1章、2章、4章、5章を集中的に勉強し、純保険料と責任準備金の算出を理解することが重要です。第3章は下巻の第13章の就業不能の問題と関連性が高いので、後回しにしてもかまいません。

上巻の基本的な公式を理解した後は、下巻の連合生命や多重脱退、チルメル式責準等の問題に手を付けていきやすくなります。下巻は点差の付きやすいポイントが多くあるので過去問と合わせてムラなく対策しておくことが重要です。

受験直前期には下記のサイトの予想問題も参考にしました。実践的で役に立つ問題が取り上げられているため、非常に参考になります。
ハピスマ大学 - お金の基本・運用・活用を学ぼう | アクサダイレクト生命保険

(3)年金数理

年金数理の勉強方法は生保数理に近いものになります。指定教科書と過去問を中心に勉強を進めました。

まずはトロ―ブリッジモデルの各種財政方式を理解することが重要です。財政方式の算式を暗記する際は、各記号の意味を図示しながら理解することをお勧めします。教科書の数式と図を何も見ない状態から書き出せるようにしておくと、試験本番でも迷いなく手を動かすことができます。

公式の理解が十分になってからは、過去問演習を通じて典型的な問題や応用的な問題に取り組みました。網羅的な問題演習を行うのにアクチュアリー受験研究会で提供されているワークブックの「例題で学ぶ年金数理」は非常に役立ちました。

また、受験直前には年金数理人試験の問題も参考にしました。解答には解説がついていませんが、演習パターンを増やしたい方にはおすすめです。
過去の出題例|能力判定試験について|年金数理人を目指す方へ|JSCPA

(4)損保数理

損保数理は範囲が広く、数理的にも難易度が高いため受験時には苦労しました。「例題で学ぶ損害保険数理」で問題の解き方を把握しつつ、内容が理解できていない部分については教科書に戻って数式を追い直すようにしました。

まずは、教科書第2章「クレームの分析」における集合的リスクモデルを理解することが重要です。こちらの記事もご参考ください。

第3章「経験料率」で利用するベイズ統計や第10章「リスク評価の数理」で利用するコピュラ極値理論など、応用的な数理統計の知識が必要な領域については、自分でまとめノートを作成して理解を確認するようにしました。

一方で、第4章「クラス料率」や第5章「支払備金」、第6章「積立保険」、第7章「保険料算出原理」などは知識がないと解けない問題もあることから、過去問等から暗記すべきポイントを網羅的に洗い出して、直前に見直すようにしました。

受験中は下記の参考書を使用しました。

例題で学ぶ損害保険数理 第2版

例題で学ぶ損害保険数理 第2版

下記の書籍はコピュラの解説が非常に充実しています。

(5)会計・経済・投資理論(KKT

他の科目と比較すると勉強には手を付けやすいものの、試験範囲が非常に広いため油断できない科目です。配点としては投資理論が50点、会計、経済が25点ずつとなっており、投資理論の比重が大きくなっています。

また、合格には6割以上得点するだけでなく、3つの分野でそれぞれで設定されている足切り点(※)を超える必要があります。(※各分野の配点に対して4割の得点が必要です。投資理論は20点、会計、経済はそれぞれ10点ずつ。)足切りを確実に回避するためには、配点が少ない会計、経済も含めてムラなく勉強する必要があります。

教科書、過去問を一周するだけでは試験範囲を網羅的にマスターすることは難しいです。早めに過去問に手を付けて、繰り返し練習することをおすすめします。時間に余裕のあるうちに典型的な計算問題を練習し、試験直前は正誤問題等、暗記が重要な問題を対策できるとベターです。

参考書としては、アクチュアリー受験研究会で配布されているワークブックを主に使いました。解き方が分からない問題、知識が足りていない箇所については、指定教科書「財務会計講義」「新・証券投資論」を参照して理解を深めるようにしました。

新・証券投資論I

新・証券投資論I

新・証券投資論II

新・証券投資論II

財務会計講義(第19版)

財務会計講義(第19版)

  • 作者:桜井久勝
  • 発売日: 2018/03/21
  • メディア: 単行本

3.勉強時間

一次試験を突破するのに必要な勉強時間は一科目あたり200時間とも言われています。1日1時間程度コンスタントに勉強するとしても、一科目あたり半年くらいの時間がかかる計算です。

いつから勉強を開始するかに正解はありませんが、業務や学業の繁忙度も考慮しつつ、勉強時間を確保しなければなりません。

無理のないスケジュールを組み立て、出来るだけ前倒しで勉強することが合格の鍵になります。

4.終わりに

一次試験は限られた時間の中で大量の問題を解くことが求められます。試験当日に迷いなく問題が解けるように、早い段階から出題パターンになれておくことが肝要です。

教科書を読んで理解する勉強も大事ですが、手を動かして問題を解けるようになることも高得点を得るには不可欠です。試験を突破するためには6割の得点が必要なので、基本的な問題を計算ミスなく確実に解けるようにすることが求められます。

前記事でも書きましたが、アクチュアリー試験合格には平均8年程度かかるとも言われています。毎年複数の科目を集中的に勉強することが一次試験を早く突破するコツになります。

本記事が読者の方の受験科目の選択や勉強方法の模索の一助になれば幸いです。

(関連記事)
r-std.hatenablog.com
r-std.hatenablog.com

アクチュアリー試験合格には何年かかるかシミュレーションしてみた

今回はアクチュアリー試験に合格するまでには何年かかるかをシミュレーションし、最適な受験戦略を考えてみました。

2019/1/11追記:続編となる記事を作成しました。本記事と同様のシミュレーションをjavascriptを用いて実装してみました。
r-std.hatenablog.com

1.アクチュアリー試験について

アクチュアリー試験は一次試験、二次試験の2部構成となっており、一次試験の5科目をすべて合格した後に、二次試験の2科目を受験することができる仕組みになっています。
一般的には正会員になる(二次試験に合格する)には約8年程度かかるものと言われていますが、Rでシミュレーションしてみるとどうなるでしょうか。

2.試算結果

(1)複数科目への分散戦略を取らない場合

モデルの前提は次の通りとします

〈一次試験の受験中〉
 ・毎年、未取得になっている全科目を受験する。
 ・各科目の合格率はp1_low,p1_highの間の一様乱数で設定される。
 ・毎年一科目だけは合格率をstudyだけ高めることができる。

〈二次試験の受験中〉
 ・毎年、未取得になっている全科目を受験する。
 ・各科目の合格率はp2_low,p2_highの間の一様乱数で設定される。
 ・毎年一科目だけは合格率をstudyだけ高めることができる。

①毎年1科目を集中して勉強した場合

まず、毎年1科目を集中して勉強して、50%合格率を高めるケースを考えてみます。
p1_low=10%,p1_high=30%,
p2_low=10%,p2_high=20%,
study=50%として、1万回シミュレーションした結果は次の通りです。

> summary(test_50)
V1 V2
Min. : 1.000 Min. : 2.00
1st Qu.: 4.000 1st Qu.: 7.00
Median : 5.000 Median :10.00
Mean : 5.776 Mean :10.26
3rd Qu.: 7.000 3rd Qu.:12.00
Max. :24.000 Max. :40.00

V1は準会員になる年数、V2は正会員になる年数を表しています。平均すると正会員になるまでには10.26年かかる計算になります。
正会員になる年数の分布をヒストグラム化すると次の通りになります。
f:id:r_std:20180212220842p:plain

②人並みの努力しかしなかった場合

次に、毎年人並みにしか勉強しないケースを考えてみます。
p1_low=10%,p1_high=30%,
p2_low=10%,p2_high=20%,
study=0%として、1万回シミュレーションした結果は次の通りです。

> summary(test_0)
V1 V2
Min. : 1.000 Min. : 3.00
1st Qu.: 6.000 1st Qu.:11.00
Median : 8.000 Median :15.00
Mean : 8.771 Mean :15.35
3rd Qu.:11.000 3rd Qu.:19.00
Max. :32.000 Max. :65.00

f:id:r_std:20180212220822p:plain

正会員になる年数は期待値ベースで15.35年となり、1科目人並み以上に勉強したケースと比較すると5年程度の差がつくことが分かります。人並みの努力しかしない場合にはかなりの時間がかかるようです。

(2)複数科目への分散戦略をとった場合

次にモデルをさらに複雑にしてみます。一科目だけ集中して合格率を上げるのではなく、二科目に分散して合格率を引き上げる戦略を取った場合、正会員になるまでの必要年数はどうなるでしょうか。モデルの変更点は下記の赤字の通りです。

〈一次試験の受験中〉
 ・毎年、未取得になっている全科目を受験する。
 ・各科目の合格率はp1_low,p1_highの間の一様乱数で設定される。
 ・毎年2科目については合格率をそれぞれstudy1,study2だけ高めることができる。(残り1科目の場合は合格率をstudy1+study2だけ高めることができる。)

〈二次試験の受験中〉
 ・毎年、未取得になっている全科目を受験する。
 ・各科目の合格率はp2_low,p2_highの間の一様乱数で設定される。
 ・毎年2科目については合格率をそれぞれstudy1,study2だけ高めることができる。(残り1科目の場合は合格率をstudy1+study2だけ高めることができる。)

毎年2科目を集中して勉強して、合格率をそれぞれ25%ずつ引き上げた場合を考えてみます。
p1_low=10%,p1_high=30%,
p2_low=10%,p2_high=20%,
study1=25%,study2=25%として、1万回シミュレーションした結果は次の通りです。

> summary(test_50)
V1 V2
Min. : 1.000 Min. : 2.00
1st Qu.: 3.000 1st Qu.: 6.00
Median : 4.000 Median : 7.00
Mean : 4.691 Mean : 7.38
3rd Qu.: 6.000 3rd Qu.: 9.00
Max. :14.000 Max. :19.00

f:id:r_std:20180212223944p:plain

正会員になるまでの平均年数は7.38年となりました。1科目集中の戦略をとるよりも、複数科目を勉強する戦略の方が期待値ベースで必要年数が減らせることが分かります。また、合格に必要な年数のばらつきも複数科目を勉強する戦略の方が少ないことが示唆されます。

まとめ

アクチュアリー試験攻略においては、できるだけ複数科目に集中的に勉強に取り組むことが肝要であるようです。

2019/1/11追記:続編となる記事を作成しました。本記事と同様のシミュレーションをjavascriptを用いて実装してみました。
r-std.hatenablog.com


今回使用したソースコードは以下の通りです。

gist96cb267dc3df03f1144783cf38b6baa3

gista6770c9662958d15a5d652e3e708cd43

機械学習でサザエさんと本気でじゃんけんしてみた①

本記事は以下のサイトに掲載されている知見およびデータを参考に執筆しています。

www.asahi-net.or.jp

サザエさんじゃんけん研究所公式ウェブサイト(Sazaesan-janken laboratory official website) 

yaju3d.hatenablog.jp

 

1.はじめに

本記事では機械学習の手法を用いて、アニメ「サザエさん」の次回予告で行われるじゃんけんの手を予測してみます。

 

2017年冬版サザエさんじゃんけん白書」によれば、サザエさんのじゃんけんには必勝法まではいかなくとも、経験則に基づき勝率を高められるセオリーが存在するようです。

過去の実績データを踏まえると、サザエさんの出す手は毎回ランダムではなく、グー、チョキ、パーがそれぞれ均等に近い割合になるようなバイアスがかかっていることが伺えます。また、四半期初にはチョキが出やすいという傾向もみられます。

人間の経験則で得られているこのような知見について、機械学習がどのような評価を行い、どのくらいの予測精度を出せるのかに注目です。今回用いる手法は次の通りです。

 

2.使用データ

 2017年6月25日分までをサザエさんの過去の手 一覧からスクレイピングさせていただきました。過去に出た手の時系列データに、四半期内でのグーチョキパーの偏りの情報や四半期初のフラグを手で追加したものを使用しています。(なお、放送中止の回は集計から除いています。)

 使用するデータは「2017sze.csv」になります。各列の内容は次の通りです。

X:サザエさんの出した手

X1:サザエさんが1回前に出した手

X2:サザエさんが2回前に出した手

X3:サザエさんが3回前に出した手

Q:四半期初の場合は1、それ以外は0

Grate:グーチョキパーが四半期内で均等に出ると仮定した場合のグーの出やすさ

Crate:グーチョキパーが四半期内で均等に出ると仮定した場合のチョキの出やすさ

Prate:グーチョキパーが四半期内で均等に出ると仮定した場合のパーの出やすさ

 

3.使用する手法

1992年~2016年までの1254回のじゃんけんのデータから学習し、2017年の48回のじゃんけんを予想してみます。使用する手法は以下のとおりです。なお、乱数のシードは3383(サザエさん)とします。

・線形SVM

・RBFカーネルを用いたSVM

・randomForest

・決定木

・naive bayes 

4.結果

・線形SVM

  C G P
C 13 2 2
G 2 9 4
P 5 1 10

 32勝11敗5分

 

・RBFカーネルを用いたSVM

  C G P
C 10 4 3
G 0 13 2
P 3 4 9

32勝9敗7分

 

・randomForest

  C G P
C 10 4 3
G 0 13 2
P 3 4 9

32勝9敗7分

 

・決定木

  C G P
C 12 3 2
G 1 12 2
P 5 3 8

32勝10敗6分

 

・naive bayes

  C G P
C 10 4 3
G 1 11 3
P 2 2 12

33勝9敗6分

 

結果だけ見ると、naive bayesが最も識別率が高くなりました。誤識別したパターンを個別に分析すれば、より識別率を上げられる可能性がありますが、今回はここまでにしておきます。

2018/12/30追記:続編となる記事を作成しました。

r-std.hatenablog.com

今回使用したソースコードは次の通りです。

sze_janken

Rで株価変動を分析してみた(隠れマルコフモデル, Regime-Switching Model)

今回は隠れマルコフモデルを利用して、個別銘柄の株価リターンを評価してみます。隠れマルコフモデルの概要については下記などをご参照ください。

https://www.slideshare.net/thinkn1108/150719-hmm

隠れマルコフモデルでは、「背後に観測できない状態が複数あること」を仮定して、説明能力の高いモデルを推定することができます。例えば、株価リターンデータに隠れマルコフモデルを適用すると、株式市場の背後にあるボラティリティの高い状態と低い状態、リターンの高い状態と低い状態を分けて評価することができます。

隠れマルコフモデルを用いた株価の実証分析については、下記のような論文があります。株価リターンの変動を表現する際にはRegime-Switching Modelと呼ばれることがありますが、内容は隠れマルコフモデルとほとんど同義と考えられます。

www.researchgate.net

 

今回分析する銘柄は何でもよいのですが、野村ホールディングス【8604】を対象とします。隠れマルコフモデルを用いて野村HDの株価リターンがtopixのリターンから大きく乖離する部分を特定し、ニュースリリースなどがなかったかを検証します。

 

まずは、2016年の野村HDとtopixのチャートを重ねてみます。

f:id:r_std:20170815193525p:plain

上図は2016年中の株価変動率(対2016年1月4日終値)を示しています。赤がtopix、緑が野村HDの変動率を示しています。横軸が営業日(2016年は245日)、縦軸が変動率を示しています。(縦軸は左端で変動率0となります)赤線と緑線の推移は似通っているようですが、野村HDの方が変動率の絶対値が大きくなっているように見受けられます。

次は野村HDおよびtopixの日次対数リターンを算出し、単純にtopixリターンを説明変数として野村HDのリターンを単回帰してみます。

Call:
lm(formula = y ~ x, data = data)

Residuals:
Min 1Q Median 3Q Max
-0.092599 -0.008326 -0.000348 0.007715 0.099519

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0001375 0.0011676 0.118 0.906
x 1.5476281 0.0702720 22.023 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.01824 on 242 degrees of freedom
Multiple R-squared: 0.6671, Adjusted R-squared: 0.6658
F-statistic: 485 on 1 and 242 DF, p-value: < 2.2e-16

単純な回帰分析でも決定係数は0.67程度とそれなりに高いことが分かります。なお、AICは次の通り-1258となりました。

> AIC(m.lm)
[1] -1257.639

次に、状態が2つの隠れマルコフモデルを適用してみます。

Markov Switching Model

Call: msmFit(object = m.lm, k = 2, sw = c(TRUE, TRUE, TRUE))

AIC BIC logLik
-1348.283 -1312.305 678.1414

Coefficients:

Regime 1
---------
Estimate Std. Error t value Pr(>|t|)
(Intercept)(S) 0.0021 0.0056 0.3750 0.7077
x(S) 2.1379 0.3910 5.4678 4.557e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.03490673
Multiple R-squared: 0.5042

Standardized Residuals:
Min Q1 Med Q3 Max
-0.1048995084 -0.0031676084 -0.0005867352 0.0025023988 0.0904901470

Regime 2
---------
Estimate Std. Error t value Pr(>|t|)
(Intercept)(S) -0.0005 0.0008 -0.625 0.532
x(S) 1.4155 0.0502 28.197 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.01026669
Multiple R-squared: 0.8402

Standardized Residuals:
Min Q1 Med Q3 Max
-0.0211668822 -0.0061988674 0.0001718118 0.0063824874 0.0202230937

Transition probabilities:
Regime 1 Regime 2
Regime 1 0.5184655 0.1063328
Regime 2 0.4815345 0.8936672

Regime 1 は決定係数が0.5程度と小さいことから、topixリターンでは説明できない部分が大きい状態です。一方、Regime 2は決定係数も0.8程度と大きく、topixリターンによりほぼ説明可能な状態と言えます。AICも-1,348となり、単純な回帰モデルよりは改善していることが分かります。

 

f:id:r_std:20170815193952p:plain

上段が野村HDの株価リターン、下段がtopixのリターンになります。グレーの網がかかっている部分がRegime 1 の状態と予測される期間です。グレーの期間では野村HDの株価リターンが個別要因で変動していたことが推測されます。また、各Regime ごとの確率は次の通り予測されています。

f:id:r_std:20170815194217p:plain

Regime 1 と予測されている130~150営業日付近では、2016年7月28日の第1四半期決算発表および自社株買い発表等を受けて環境要因では説明できない株価変動が発生していたと評価できます。

 

今回使用したソースコードは次の通りです。

stock price

 

Rで葉っぱを分類してみた②(SVM, randomForest, Naive Bayesなど)

 前回の記事からの続編になります。

r-std.hatenablog.com

 前回は36種の葉っぱの形状データと手触り(texture)データについて、k近傍法による識別を行いました。今回はSVMやRandomForest, Naive Bayesなどの手法により、識別を行います。

今回使用する ソースコードは次の通りです。

leaf2

 

各手法による識別率の結果は次の通りとなりました。

f:id:r_std:20170402193802p:plain

パラメータチューニングをだいぶ怠っておりますが、k近傍法以外の手法ではまずまずの結果を得ることができました。

前回の記事の考察の繰り返しになりますが、k近傍法での判別が難しいことから、各クラスの中でデータ距離が大きいことが示唆されます。また、各変数が独立であるとの仮定を置くNaive Bayesでも良い結果が出ており、ある程度変数間の相関を無視できることが示唆されます。

 

識別率のみを見ると線形判別が最もよい成績を出していますが、他の手法が優れている部分もあります。たとえばクラス7のデータなどはrandom Forestの方が優れています。

 

今回の記事では手法それぞれの特性と結果の違いを分析することはしませんが、それぞれの識別関数をアンサンブルする(組み合わせる)ことで、識別率は向上を図れると思われます。

 

仮にこのような多クラス分類が、葉っぱの分類ではなく、保険の料率にビックデータを織り込んでいく場合(例えばウェアラブル端末から取得した活動データを料率に反映する場合)に活用されることを考えてみます。

アクチュアリーに期待される役割として考えられることは、①多次元のデータをわかりやすく要約すること、②モデルの精緻さと簡明さのバランスをとること、③コストとリターンのバランスをとること、などでしょうか。

 

次回は株価リターンもしくはpython導入を扱う予定です。