アクチュアリーはデータサイエンスの夢を見るか?

Rで保険数理と機械学習をやっています

【ベイズ推定入門】「二度あることは三度ある」確率はXX%

本記事はベイズ推定の入門記事です。ベイズ推定を用いて「二度あることは三度ある」確率を定量的に評価し、どんな場合に「三度目の正直」の方が信頼できるかを明らかにします。

  • 1.ベイズ推定でできること
  • 2.「二度あることは三度ある」確率
    • 2.1.フラットな「主観」の場合
    • 2.2.尖った「主観」の場合
  • 3.ベイズ推定とベイズの定理
  • 4.ベイズの定理の意味するところ
  • 5.「二度目あることは三度ある」確率 VS 「三度目の正直」の確率
  • 6.最尤推定との比較とベイズ推定の利用方法

1.ベイズ推定でできること

日本語には「二度あることは三度ある」「三度目の正直」という一見すると矛盾したことわざがあります。国語の授業で勉強した際に、どちらが正しいのか疑問に思った方も多いのではないでしょうか。

これらのことわざは「同じ事象が2度繰り返された」という状況において全く逆の示唆を与えますが、その使い分けは話者にどれだけ自信があるかに依存しています。

例えば、4番打者のAさんが2回連続で三振したときには、次の打席こそヒットを打つという意味を込めて「三度目の正直」を用いるでしょうし、うっかり者のBさんが宿題を忘れていたら「二度あることは三度ある」を使うことになるでしょう。

このように私たちがことわざを使い分ける際には、「4番打者が三振する確率は低い」、「うっかり者は宿題を忘れる確率が高い」といった「主観」をベースに「同じ事象が2度繰り返された」という「情報」を織り込んで確率を評価しています。

このように「主観」「情報」を用いて確率を定量的に評価するのに適しているのがベイズ推定です。

下図は2パターンの「主観」に基づきベイズ推定を行った例になります。

f:id:r_std:20190627075432p:plain
ベイズ推定では「主観」に「情報」を織り込んで確率を評価することができる
上段は平均25%失敗するという「主観」を持つ場合の一例、下段は平均75%失敗するという「主観」を持つ場合の一例を示しています。

それぞれの「主観」に2連続で失敗したという「情報」を織り込むと、「主観」を示していた水色の分布は右へシフトし、オレンジ色の分布へと変化します。このシフトは失敗する確率が高く評価されるようになったことを意味しています。上段は平均33%失敗するという「評価」へ、下段は平均78%失敗するという「評価」へ変化しています。このように「主観」の違いによって「評価」が分かれていることが見て取れます。

今回はこのようなベイズ推定を利用して「二度あることは三度ある」確率と「三度目の正直」となる確率を比較してみます。

続きを読む

アクチュアリー試験の合格率を予測してみた

今回の記事では2019年度のアクチュアリー試験の合格率や受験者を予測してみます。

受験生の間では「今年度はあの科目が難化した」「昨年度は合格率が低かったから今年は易化するだろう」といった噂を耳にすることがありますが、将来の合格率を合理的に予測することは可能なのでしょうか?今回は時系列分析等を用いて検証してみます。(あくまで個人的見解・予測であり、実際のアクチュアリー試験の合格率を保証するものではありません)

1.使用するデータ

アクチュアリー・ゼミナールさま掲載のデータを孫引きし、下記リンクの通りデータを集計しました。合格率の分子は各年度の合格者数、分母は各年度の受験者数※になります。(※受験者数=申込者数-欠席者数であり、受験者全体の数とは異なるようです)

また、年度や科目によっては合格点が60点から調整されていることがありますが、今回の分析では特段のデータ補整は行いません。

2.データ概要

各年度の合格率の推移を表とプロットで表してみます。

 2010~2018

  H22 H23 H24 H25 H26 H27 H28 H29 H30
  2010 2011 2012 2013 2014 2015 2016 2017 2018
数学 11.9% 11.1% 46.8% 18.4% 26.5% 20.2% 19.7% 10.3% 13.0%
生保 35.3% 12.6% 49.2% 26.5% 10.2% 14.0% 10.6% 26.2% 12.8%
損保 12.8% 10.5% 39.9% 30.1% 22.6% 20.5% 13.2% 13.7% 23.5%
年金 11.6% 8.1% 46.8% 58.2% 10.2% 18.5% 16.6% 16.4% 35.2%
KKT 18.8% 20.5% 47.6% 20.3% 22.0% 46.1% 17.2% 19.0% 14.1%

2001~2009

  H13 H14 H15 H16 H17 H18 H19 H20 H21
  2001 2002 2003 2004 2005 2006 2007 2008 2009
数学 9.7% 17.1% 17.7% 6.8% 7.2% 10.6% 41.8% 22.8% 18.9%
生保 29.5% 9.7% 22.5% 7.0% 10.2% 11.0% 38.7% 21.9% 21.5%
損保 29.6% 15.2% 18.1% 22.7% 9.9% 11.9% 13.1% 36.6% 10.5%
年金 14.5% 19.5% 12.4% 11.4% 18.9% 11.9% 52.0% 18.1% 11.6%
KKT 17.6% 34.3% 30.1% 11.5% 23.0% 15.3% 24.8% 27.1% 15.1%

 

f:id:r_std:20190602035140p:plain

2001~2018年の合格率の推移

f:id:r_std:20190602035215p:plain

2001~2018年の合格率の推移(ロジット変換後)

ロジット変換後の時系列データの方が正規分布へのあてはまりが良いことから、今回はロジット変換後のデータを中心に分析します。

※別途正規分布のあてはまりを確認するためシャピロ・ウィルク検定を行っていますが、結果は割愛します。年金数理だけは合格率が上振れした年の影響が強く、正規分布に従う仮定はあてはまりにくいようです。

3.(仮説1)将来の合格率は過去の合格率に左右される?

ここでは将来の合格率が過去の合格率の影響を受けるか否かを、偏自己相関係数を算出して検証します。

合格率が高い状況が続きにくい(難化→易化or易化→難化を繰り返す)場合、偏自己相関係数は負になりやすいと考えられます。

下図はロジット変換後合格率のロジット変換後の偏自己相関係数を表したものです。横軸のLagは過去何年前との自己相関かを示しており、点線は有意水準5%の棄却域を示しています。偏自己相関係数が点線の有意水準を上回る/下回る場合、過去の科目の合格率の影響を受けやすいことが示唆されます。

f:id:r_std:20190602021807p:plain

ロジット変換後データの偏自己相関①

f:id:r_std:20190602021859p:plain

ロジット変換後データの偏自己相関②

有意な自己相関がほとんど観測されないことから、将来の合格率は過去の合格率に左右されるとは言えないと結論づけられます。(なお、ロジット変換前の合格率を使用した場合にも同じ結果が導かれます)

「去年は難化したから今年は易化する」という説は前期比の観点でみれば正しかもしれませんが、真の期待合格率が過去実績を踏まえて変化しているというのは言い過ぎなようです。

「あの科目は去年難化していたから今年は簡単になるはず!受験しよう!」というのは誤った戦略であることが示唆されます。

4.(仮説2)年度によって当たり年、外れ年がある?

年度ごとの合格率の推移を見ると、全体的に合格率の高い年、低い年があるように見えます。

f:id:r_std:20190602041934p:plain

5科目平均の合格率

散布図を見ると、同じ年度の各科目の合格率の間には弱い正の相関があることが窺えます。

f:id:r_std:20190602052539p:plain

ピアソンの相関係数を算出したところ、下記のとおり相関係数行列を得ました。(ロジット変換後のデータに対する相関係数です)

  数学 生保 損保 年金 KKT
数学 100.0%        
生保 53.5% 100.0%      
損保 36.8% 32.4% 100.0%    
年金 55.0% 49.6% 42.3% 100.0%  
KKT 60.9% 33.7% 32.8% 30.5% 100.0%

無相関検定を行ったところ、数学と生保、数学と年金、数学とKKT、生保と年金の間で5%有意水準帰無仮説相関係数=0)が棄却されました。各科目間で全く合格率に相関がない、とは結論付けにくいようです。

また、相対的に合格率の高い2012年度や2017年が異常値として判定できるかどうか、MT法を用いて異常値検出を行ってみましたが、サンプル数自体が非常に少ないこともあり、マハラビノス距離3では検出することができませんでした。

f:id:r_std:20190602100251p:plain

マハラノビス距離=3では異常値を検出できなかった


5.2019年度アクチュアリー試験の推定合格率

今回はロジット変換後の時系列データが定常な正規分布に従うと仮定して予測を行います。

 logit\left( pass\_ rate_{subject,year}\right) \sim N\left( \mu_{subject} ,\sigma_{subject} ^{2}\right)

合格率の最尤推定値は下記の通りとなりました。

数学 生保 損保 年金 KKT
16.5% 18.3% 18.3% 19.2% 22.4%

数学の合格率がやや低く予想されました。

6.(おまけ)将来の受験者数を推定してみる

VAR(Vector Auto Regressive)モデルを使って受験者数を予測してみます。VARモデルはARモデルの多変量バージョンです。手法の詳細については こちらのサイトなどをご参照ください。

過去の実績データを用いると、各科目について100人以内の誤差で予測を行うことができました。下記は数学の受験者数の推定モデルの例です。実線が受験者数、破線が推定値を示します。

f:id:r_std:20190602071544p:plain

来年度の受験者数は下記のとおりと予測されます。

  2010 2011 2012 2013 2014 2015 2016 2017 2018 予測
数学 1139 1078 949 773 899 934 1020 1069 1139 1110
生保 813 633 630 554 560 684 753 827 719 816
損保 719 704 641 632 598 615 621 688 652 706
年金 716 754 697 601 440 482 512 542 542 637
KKT 832 784 712 634 660 696 603 733 689 748

 

今回使用したソースコードは次の通りです。 

exam.R

Twitter上のtweetデータを自動収集してみる

Twitter上でtweetデータを簡単に収集する方法をご紹介します。APIを使用せずともtweetデータを収集することができます。
This article is a tutorial for how to collect Tweet data by Google sheet application, Twitter Archiver.


1. まずグーグルスプレッドシートで空のシートを開きます。

f:id:r_std:20190318032350p:plain
空のグーグルスプレッドシート

2. Ad-onsを開きます

f:id:r_std:20190318032439p:plain
Ad-onsを開きます

3. "Twitter Archiver"で検索をかけます。

f:id:r_std:20190318032532p:plain
検索結果

4. ダウンロードして、twitterアカウントと連携させます。

f:id:r_std:20190318032609p:plain
twitterアカウントとの連携

5. 検索条件を設定します。

f:id:r_std:20190318032706p:plain
検索条件の設定

1時間おきに100件のツイートを収集することができます。
例えば、「アクチュアリー」で検索すると、次のようなデータを得ることができます。

f:id:r_std:20190318033650p:plain
データ取得結果

直近のツイート数を集計してみると、次の通りになります。

f:id:r_std:20190318033003p:plain
アクチュアリー」を含むツイート数
合格発表時(2019/02/14)のツイート量が多いことが確認できます。

アクチュアリー試験の合格年数シミュレーター

アクチュアリー試験合格までに何年かかるかをシミュレーションするプログラムを作成しました。※実際の合格年数を保証するものではありませんので、ご承知おきください。

計算前提

1. 毎年2科目を受験する。(残り科目数が1科目の場合は1科目)
2. それぞれの科目の合格率は次のとおり。
受験者全体の合格率に、勉強の成果(追加上昇効果)を指定%上乗せして算出。

 第1科目の合格率 = 受験者全体の合格率 + 第1科目の追加上昇効果
 第2科目の合格率 = 受験者全体の合格率 + 第2科目の追加上昇効果
 ※なお、残り科目数が1科目の場合は次の通り。
 第1科目の合格率 = 受験者全体の合格率 + 第1科目の追加上昇効果 + 第2科目の追加上昇効果

3. 受験者全体の合格率は、年ごと・科目ごとに一様乱数で設定される。
4. 1回のシミュレーションにつき、1万通りのシナリオを発生させる。各シナリオとも正会員になるまで受験し続け、リタイアは考慮しない。

入力パラメータ

1.現在の合格科目数

 一次試験、二次試験の通算で科目

2.受験者全体の合格率

 一次試験科目の合格率:
 二次試験科目の合格率:

3.勉強の成果としての合格率の追加上昇効果

 一次試験科目の上乗せ幅
  第1科目:% 第2科目:
 二次試験科目の上乗せ幅
  第1科目:% 第2科目:

計算実行ボタン


実行結果

準会員になるまでの年数
最頻値中央値平均値5%点95%点標準偏差
正会員になるまでの年数
最頻値中央値平均値5%点95%点標準偏差


結果をシェアする

計算結果の考察

  1. 人並みの勉強しかしない場合(追加上昇効果を期待しない場合)、試験合格までには平均で20数年程度の月日がかかる。
  2. 毎年複数科目を真剣に勉強しない場合、短期間での合格は難しい。合格年数のばらつきも大きい。

以前の記事も参照ください。
r-std.hatenablog.com
r-std.hatenablog.com


当記事を作成するのに使用している技術

シミュレーションにはjavascriptを使用しています。javascriptには統計処理を助けてくれるライブラリなどがあり、今回使用したものをご紹介いたします。

1. Simple Statistics.js Simple Statistics
最頻値や中央値などの統計量を求めるのに利用しています。javascript自体にも一様乱数生成機能などがついていますが、当該ライブラリでは各種分布の乱数の生成などもできるようです。

2. plotly.js plotly.js | JavaScript Graphing Library
histogramの作成に使用しています。RやPythonからでも利用できるようで、Visualizationが簡単にできます。
3D系のグラフ描画も可能なため、使い勝手が非常に良さそうです。

3.Twitterへの連携
cthuwebdice.session.jp



機械学習でサザエさんと本気でじゃんけんしてみた②

前回の記事からの続編です。機械学習の手法を用いてサザエさんのじゃんけんの手を予測します。
r-std.hatenablog.com
2017年はいくつかの機械学習の手法を適用して終了してしまいましたが、2018年は予測手法をさらに高度化してみたいと思います。

1.予測をさらに精緻化してみる

1-1.変数の追加

前回から次の2つのデータの追加を行います。
サザエさんが4回前に出した手
・直近で出たタイミングが最も古い手
直近で出たタイミングが最も古い手については、サザエさんじゃんけん研究所の公式サイトでも「最大間隔法」として利用されており、有効性が確認されている情報と言えます。

今回使うデータは下記の通りです。
X:サザエさんの出した手
X1:サザエさんが1回前に出した手
X2:サザエさんが2回前に出した手
X3:サザエさんが3回前に出した手
X4:サザエさんが4回前に出した手
Q:四半期初の場合は1、2、3、4、それ以外は0
Grate:グーチョキパーが四半期内で均等に出る前提でのグーの出やすさ
Crate:グーチョキパーが四半期内で均等に出る前提でのチョキの出やすさ
Prate:グーチョキパーが四半期内で均等に出る前提でのパーの出やすさ
last:直近で出たタイミングが最も古い手

使用したデータは下記リンク先の通りです。
github.com

 

1-2.勝ち負けの重みづけ

例えば、グーチョキパーが下記のような確率で出されると予測される場合、どの手を出すのが最も合理的でしょう?
f:id:r_std:20181226030146p:plain
勝つ確率を最大限高めるのであれば40%出ると予想されるグーに対応してパーを出すのが正着ですが、この場合チョキを出されて負ける確率も39%という高い確率になってしまいます。負けの確率も考慮すると、チョキに勝つ確率(39%)パーに負ける確率(21%)のバランスがとれたグーを出す戦略が最適と考えられます。

従来の予測では勝つ確率のみに注目しており、負ける確率については無視していました。今回はPenalty Matrixを使用することで、負ける確率も考慮した予測を試みます。
使用するPenalty Matrixは次の通りです。行は実現値、列は予想値に対応します。例えば行がC、列がGの場合(予想ではグーだと思っていてパーを出したところ、実際にはチョキが出て負けるケース)は2の値をとることになり、予想が外れて負けたときにはペナルティが倍になるようにパラメータ設定をします。

  C G P
C 0 2 1
G 1 0 2
P 2 1 0

2.重要度の高い特徴量を明らかにする

2-1.決定木を使ってみる

結果の解釈が分かりやすい決定木モデルを使って予測を試みます。パラメータをざっくり調整すると、次のように分類できることができました。
f:id:r_std:20181226043231p:plain
直近で出たタイミングが最も古い手の情報と四半期初回フラグの2つで分類していることがわかります。

最も出ていない手がチョキの場合はチョキを、最も出ていない手がグーの場合は、四半期初回であればチョキを、そうでなければグーを予想します。最も出ていない手がパー場合はパーを予想します。

なお、決定木を用いて2018年の手を予想した結果は次の通りです。(行は実現値、列は予想値に対応します。)

  C G P
C 11 1 6
G 4 9 4
P 4 0 10

49戦30勝9敗10引分け

2-2.ランダムフォレストを使ってみる

RのrandomForestパッケージでは、重要度の高い特徴量を特定するのに下記の2手法を使うことが可能です。

MeanDecreaseAccuracy
MeanDecreaseGini

前者はある特徴量をランダムにシャッフルした際の評価、後者はエントロピー(不純度)による評価が基準となっています。

こちらのサイトによるとMeanDecreaseGiniは、カテゴリーデータと連続データが混ざった場合にバイアスが生じてしまうようです。また、変数間で相関関係がある場合、MeanDecreaseGiniもMeanDecreaseAccuracyも重要度を正しく評価できない欠点があるようです。

2018年のデータに対して、それぞれを算出すると次の通りとなりました。
f:id:r_std:20181226050222p:plain
f:id:r_std:20181226063714p:plain
2手法のそれぞれで重要度が高いとされる特徴量が異なる点が気になりますが、MeanDecreaseAccuracyでは決定木と同じように、直近で出たタイミングが最も古い手の情報と四半期初回フラグの2つが重要であることが示されています。

また、決定木と同様にPenalty Matrixを使用したところ、下記の結果を得られることができました。(行は実現値、列は予想値に対応します。)

  C G P
C 11 2 5
G 2 10 5
P 3 0 11

49戦32勝10敗7引分け

3.2018年の結論

  1. サザエさんのじゃんけんで次の週の手を予測するには、①四半期初回フラグと②直近で出たタイミングが最も古い手の情報の2つが重要である
  2. 勝ち負けの重みづけ評価をしたrandomForestモデルでは、勝率65.3%を達成した
  3. randomForestの特徴量の重要度と決定境界の評価については、さらなる分析が必要

4.2018年の分析の感想

予測を精緻化させるのには多くの手作業が必要になりました。四半期初回フラグや直近で出たタイミングが最も古い手などの一部の情報については、人間が手作業でフラグを追加しない限り、機械学習で変数として認識することは難しいように思われます。
囲碁のような完全情報ゲームでは試行錯誤を通じてAIを成長させることが可能と思われますが、サザエさんのじゃんけんのようなさまざまな特殊要素が絡む不完全情報ゲームでは、仮説を立てて検証する人間の力がどうしても必要になると考えます。
予測結果の説明可能性についても、特徴量の重要度や決定境界を論理的に裏付けるのは非常に困難であると感じました。今回は用いませんでしたが、DeepLearningなどより複雑な手法を選択する場合には、さらに説明困難になると思われます。

使用したソースコードは次の通りです。

sze2018.R

機械学習と保険数理の違い(バイアス、バリアンス分解との比較)

今回は機械学習と保険数理の違いについて、数式を用いて比較してみます。

1.機械学習の汎化誤差

まずは機械学習で扱われる汎化誤差(Test error)について数式を見てみます。汎化誤差とは訓練誤差(Training error)に対する概念で、「観測されていない新たなデータを予測した時に生じる誤差」のことを指します。

以下の数式はScott Fortmann-Roeのessayからの引用です。
scott.fortmann-roe.com

 \\\
Y = f(X) + \epsilon\\\
Err(x) = E\left\langle(Y-\hat{f}(x))^2\right\rangle\\\
= E\left\langle(f(x) -\hat{f}(x)+ \epsilon)^2\right\rangle\\\
= \left(f(x)-E\langle\hat{f}(x)\rangle\right)^2 + E\left\langle\left(\hat{f}(x)-E\langle\hat{f}(x)\rangle\right)^2\right\rangle +\sigma_e^2\\\
= \mathrm{Bias}^2 + \mathrm{Variance} + \mathrm{Irreducible\ Error}

確率変数Yは Y = f(X) + \epsilon\\\ によってモデル化され、 f(x)\\\ は理論値、 \epsilon\\\ はノイズを意味しています。一方で \hat{f}(x)\\\ は予測値を意味しており、 Y\\\  \hat{f}(x)\\\ の推定二乗誤差である Err(x)\\\ (=汎化誤差)を分解するのが上式の狙いです。
ポイントとなるのは、予測値 \hat{f}(x)\\\ が定数ではなく、訓練データに従って変動する確率変数として表現されることです。予測値 \hat{f}(x)\\\ の不確実性は最終式の第2項で示されます。
最終的に、汎化誤差=①バイアス+②バリアンス+③ノイズの3要素に分解することができました。

2.保険数理の推定二乗誤差

一方で保険数理でのリスク評価はどのように行われるでしょうか?以下の数式をマーフィーの論文から引用します。
https://www.casact.org/pubs/forum/07sforum/07s-murphy.pdf


mse\left( \widehat {C}\right)=  E \left( C-\widehat {C}\right) ^{2}\\\
=Var\left( C\right) + E_{\widehat {C}}\left( \widehat {C}- \mu _{C} \right) ^{2}\\\
=Var\left( C\right) +Var\left( \widehat {C}\right) + \left( \mu _{C}-\mu _{\widehat {C}}\right) ^{2}\\\
=Var\left( C\right) +Var\left( \widehat {C}\right) + \mathrm{Bias}^2

 C\\\ は将来の支払保険金、 \widehat {C}\\\ はその予測値になります。 C\\\  \widehat {C}\\\ の推定二乗誤差である mse\left( \widehat {C}\right)\\\ を分解するのが上式の狙いです。なお、 \mu _{C}および \mu _{\widehat {C}}はそれぞれ C\\\  \widehat {C}\\\ の母平均です。
最終式の各項をそれぞれ日本語に読み替えると、リスク=(1)プロセスリスク+(2)パラメータリスク+(3)バイアス(モデルリスク)と分解することができます。
プロセスリスクは確率変数 C\\\ が元々もっている不確実性、パラメータリスクは観測値の偏りにより、予測モデルのパラメータを読み誤る不確実性を示しています。
マーフィーの論文では将来支払う保険金の変動リスクについて、プロセスリスク、パラメータリスク(あるいはバイアスを含んだエスティメーションエラー)に分けた評価を行っています。

3.両者の数式の比較

ここで上記の2つの数式を見比べてみると、両者は本質的には同じことを表していて、3つの項がそれぞれ対応していることが分かります。
バイアス=モデルリス =\mathrm{Bias}^2
バリアンス=パラメータリスク =Var\left( \widehat {C}\right)=E\left\langle\left(\hat{f}(x)-E\langle\hat{f}(x)\rangle\right)^2\right\rangle
ノイズ=プロセスリスク =Var\left( C\right)=\sigma_e^2

機械学習領域では、ノイズの発生はまぬかれえないもの、モデルによらずコンスタントに予測を乱すものとしてざっくり切り捨てられます。
一方で、バイアス、バリアンスについてはモデルを調整して小さくすることが可能なため、これらをどう最小化させるかが肝要となっています。バイアス、バリアンスについては下記イメージの通りです。f:id:r_std:20181217050822p:plain
特に、バイアスとバリアンスにはトレードオフが存在する(下記イメージご参考)ために、モデルをどのように設定して予測性能を最大化するかが命題となっています。ここには複雑なモデルは訓練データに依存しやすい一方、単純なモデルでは精緻な結果は得にくいというジレンマがあります。

f:id:r_std:20181217070146p:plain
X軸はモデルの複雑さ、Y軸は汎化誤差の大きさを表します。赤色のバイアスと水色のバリアンスの和を最小化することが機械学習の命題です。
f:id:r_std:20181229073001p:plain
左の図はモデルがシンプルすぎる(バイアスが大きい)一方、右の図はモデルが複雑すぎて訓練データへの依存度が高い(バリアンスが大きい)状態

保険数理では、機械学習とは異なりノイズ(プロセスリスク)についても注目します。将来に支払いが予測される保険金の変動や株式などの価格変動リスクなどを評価するために、プロセスリスクを分析することがアクチュアリーの使命の1つになっています。また、バイアスについては実際には観測することのできないモデルリスクとして認識し、複数のモデルをブレンディングするなどして対応することがあります。バリアンスについては観測値の偏りに伴うリスクであるパラメータリスクとして認識し、リスクモデルを用いたリスク評価の対象に含めています。

機械学習ではバイアス、バリアンスのトレードオフについて注目しますが、保険数理でも共通した課題認識を持つことがあります。例えば、リスクモデルの複雑さをどの程度にするか検討する際に、同じようなトレードオフが発生します。各々の会社でリスクモデルを複雑・精緻にする場合には、個社の保有リスク実態に適したリスク評価が可能になるというメリットがあります。一方で、リスクモデルが複雑になりすぎるとモデルの頑健性や各社間の結果の比較可能性は落ちてしまうというデメリットがあります。

データサイエンティストが用いる機械学習の手法とアクチュアリーが用いる保険数理の手法はそれぞれ異なりますが、両者が優れている点を共有することでより精緻なモデルを開発したり、モデルの妥当性を高めることにつながるのではないでしょうか。

アクチュアリーが学ぶべき英語・英単語

今回は、アクチュアリーが英語を使うときに役立つかもしれないリンク集をまとめてみます。
f:id:r_std:20190120060713p:plain

Wikipediaの略語集

保険業界に限定されるものではないですが、ビジネス・金融関係の略語が充実しています。
List of business and finance abbreviations - Wikipedia

ABIのglossary

保険業界団体ABIのまとめている用語集です。
https://www.abi.org.uk/data-and-resources/tools-and-resources/glossary/

IRMIのglossary

International Risk Management Instituteの用語集です。
収録されている用語は多く、Googleなどで検索するとよくでてきますが、内容は難しいです。
Glossary | IRMI.com

NIBAのglossary

ブローカー団体の用語集です。用語の量はやや少なく、一般的なものが多いです。
Insurance Glossary | NIBA - National Insurance Brokers Association

Munich Reのglossary

専門的な再保険用語について解説があります。かなり細かい用語までカバーされています。
https://www.munichre.com/ca/non-life/business-and-solutions/knowledge-and-tools/reinsurance-glossary/index.html

トーア再保険再保険用語集

Munich Reの用語集と同じく再保険の用語集ですが、こちらは日本語対日本語で詳しく解説されています。
トーア再保険株式会社:用語集

IFRS17号に関するKPMGの用語集

KPMGの用語集です。IFRS17号に登場する主要な用語が解説されています。
https://home.kpmg.com/xx/en/home/insights/2018/02/ifrs17-transition-trg-newsletter-insurance-glossary.html

Investopedia

資産運用領域の専門的な単語について詳しく解説されています。
Investopedia - Sharper Insight. Smarter Investing.

英単語の内容を確認する際はできるだけ複数のソースを参照することが肝要と思われます。