アクチュアリーはデータサイエンスの夢を見るか?

Rで保険数理と機械学習をやっています

データサイエンス

天鳳位の成績データを統計的に分析してみた

本記事では天鳳位15名の方(2020年5月現在)の牌譜データを分析します。現環境の麻雀強者たちにどのような打ち筋・タイプがあるかを明らかにし、plotyを用いた3D表示を試みます。 1.使用データ 2.分析手法 3.分析結果 3.1.因子負荷量 3.2.Plot…

【ベイズ推定入門】「二度あることは三度ある」確率はXX%

本記事はベイズ推定の入門記事です。ベイズ推定を用いて「二度あることは三度ある」確率を定量的に評価し、どんな場合に「三度目の正直」の方が信頼できるかを明らかにします。 1.ベイズ推定でできること 2.「二度あることは三度ある」確率 2.1.全く…

【API不要】Twitter上のtweetデータを自動収集する方法

本記事ではTwitter上のtweetデータを自動収集する方法をご紹介します。APIを使用しなくても、tweetデータを簡単に自動収集することができます。今回はグーグルスプレッドシート上のTwitter Archiverというアプリを利用します。 Twitter Archiverの使い方 自…

機械学習と保険数理の違い(バイアス、バリアンス分解との比較)

今回は機械学習と保険数理の違いについて、数式を用いて比較してみます。 1.機械学習の汎化誤差 2.保険数理の推定二乗誤差 3.両者の数式の比較 1.機械学習の汎化誤差 まずは機械学習で扱われる汎化誤差(Test error)について数式を見てみます。汎化誤…

Rで株価変動を分析してみた(隠れマルコフモデル, Regime-Switching Model)

今回は隠れマルコフモデルを利用して、個別銘柄の株価リターンを評価してみます。隠れマルコフモデルの概要については下記などをご参照ください。 https://www.slideshare.net/thinkn1108/150719-hmm 隠れマルコフモデルでは、「背後に観測できない状態が複…

ネット麻雀「天鳳」を統計的に分析してみた(後編)

前回の記事に引き続いて、天鳳強者のデータを分析します。 r-std.hatenablog.com 今回は主成分分析、因子分析を用いて、プレーヤーを打ち筋の観点から分類することを試みます。 1.主成分分析、因子分析 2.結果 3.考察 4.総論 1.主成分分析、因子分…

ネット麻雀「天鳳」を統計的に分析してみた(前編)

本記事では、オンライン麻雀ゲーム「天鳳」の成績データを分析し、良い戦績をあげているプレーヤーの特徴を明らかにします。 1.天鳳について 2.用いたデータ 2-1.成績データ 2-2.和了データ 2-3.放銃データ 2-4.打ち回しデータ 3.重回…