競馬予想(2020/08/02) 札幌11R クイーンS(G3)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関して、前回(2020/06/28 宝塚記念)から特に変更なし。

気が付けば1ヶ月も投稿・更新してないですね。
春のG1シーズンが終わったせいなのか、モチベーションが…A^^;

・学習データ
 2009年から2019年までに実施されたクイーンSに出走した馬の、出走当時のデータ。
 2013年は函館開催ですが、競馬場の性質は大きくは変わらないと判断し、学習データからは除外していません。

 レース数 = 11
 出走馬数 = 139
 
予想内容
 ◎ビーチサンバ(0.644)
 ○スカーレットカラー(0.604)
 ▲シャドウディーヴァ(0.515)
 △オールフォーラヴ(0.496)
 △サムシングジャスト(0.472)
 
今年に入っていから牝馬限定重賞で好成績を抑えめているフェアリーボルカが5番手以内に入らないのはちょっと意外。

競馬予想(2020/06/28) 阪神11R 宝塚記念(G1)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関して、前回(2020/06/14 マーメイドS)から特に変更なし。

・学習データ
 2010年から2019年までに実施された宝塚記念に出走した馬の、出走当時のデータ。

 レース数 = 10
 出走馬数 = 144
 
予想内容
 ◎サートゥルナーリア(0.671)
 ○クロノジェネシス(0.657)
 ▲ラッキーライラック(0.601)
 △キセキ(0.530)
 △ワグネリアン(0.506)
 
馬体重が発表されてからの予想です。
レースまで時間がそんなにないので、その他コメントなしで。

競馬予想(2020/06/14) 阪神11R マーメイドS(G3)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関して、前回(2020/06/13 天保山S)から少し変更して、馬場状態に関する特徴量をモデル構築時の考慮対象に含め入れ、さらに一部は必ずモデルに入れるように変更しています。
※馬場状態に関する特徴量が何もなかったのに、昨日気が付きました。入れていると思っていたんだけどなあ…。

・学習データ
 2010年から2019年までに実施されたマーメイドSに出走した馬の、出走当時のデータ。

 レース数 = 10
 出走馬数 = 144
 
予想内容
 ◎サラス(0.469)
 ○フィリアプーラ(0.463)
 ▲センテリュオ(0.442)
 △リープフラウミルヒ(0.437)
 △リュヌルージュ(0.432)

去年もそうでしたが、他のレースでの予想結果と比較すると、上位に来る馬の評価値が低いですね。
昨日の天保山Sでは掲載した5頭は評価値0.50を超えてましたが、今回は0.50を超える馬が1頭もいないですね。
直近のハイパーパラメータ変更以降からは、こういうケースはなかったのですが。

というわけで、上位評価されている馬でも、自信をもって「これ」と言えはしない、と。

ちなみに、去年もマーメイドSの予想を掲載しているのですが、6~8番手評価の馬で決まったようです。
その時と今とではエンジンが全然違うので、何の参考にもならないですが…。

競馬予想(2020/06/13) 阪神11R 天保山S(OP)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関して、前回(2020/06/07 安田記念)から変更していません。

2パターンで予想を実行してみました。
両方とも、馬体重発表前に予想は終えています。
上位評価されている馬に大幅な増減がある馬はいないので、発表前に予想したことによる影響はほとんどないと思います。

【予想①】
・学習データ
 2013年から2019年までに実施された天保山Sに出走した馬の、出走当時のデータ。
 ※阪神3回のダート1400mになった、2013年以降としています。

 レース数 = 7
 出走馬数 = 98
 
予想内容
 ◎レッドルゼル(0.735)
 ○スマートダンディー(0.721)
 ▲デザートストーム(0.607)
 △デターミネーション(0.603)
 △ヒラソール(0.549) 

【予想②】
・学習データ
 2010年から2019年までに実施された阪神ダ1400mのオープン、またはリステッド競争に出走した馬の出走当時のデータ。
 ※近年は、ポラリスS、コーラルS、天保山S、エニフS、ギャラクシーS or 20xxファイナルSで年間5レース設定されてますね。
  各開催に1レースずつ割り当てられています。

 レース数 = 47
 出走馬数 = 689
 
予想内容
 ◎レッドルゼル(0.746)
 ○デザートストーム(0.743)
 ▲スマートダンディー(0.723)
 △デターミネーション(0.716)
 △サヴィ(0.628)

データ量増やしても、上位評価される馬には大きな違いは見られないですね。少し順番は違うものの。
上の予想で5番手評価されているヒラソールは、下の予想では6番手評価だったりしますし。

競馬予想(2020/06/07) 東京11R 安田記念(G1)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関して、前回(2020/05/31 ダービー)から少し変更しています。
候補に入れる特徴量を少し増やしました。ただ、それが最終的なモデルに採用されるかどうかは、データ次第ですが。

・学習データ
 2010年から2019年までに実施された安田記念に出走した馬の、出走当時のデータ。

 レース数 = 10
 出走馬数 = 168
 海外からの出走分が10レコード程度あるのですが、これらレコードは特徴量のいくつかが欠落するので、そこは適宜保管してます。
 といっても、大半は「データなし」を表す数字にしているだけですが。
 
 ◎インディチャンプ(0.684)
 ○アーモンドアイ(0.659)
 ▲グランアレグリア(0.648)
 △ヴァンドギャルド(0.640)
 △ダノンプレミアム(0.629)
 
本AI予想から見えるのは、「混戦と判断している」ですね。

これから出かけるので、本日の記事は簡潔に。

競馬予想(2020/05/31) 東京11R 日本ダービー(G1)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/05/24 オークス)から変更していません。

・学習データ
 2010年から2019年までに実施された日本ダービーに出走した馬の、出走当時のデータ。

 レース数 = 10
 出走馬数 = 176
 
 ◎コントレイル(0.715)
 ○サリオス(0.656)
 ▲ヴァルコス(0.634)
 △ワーケア(0.625)
 △マンオブスピリット(0.574)
 
※過去10年分のレコード数が176しかない(全部フルゲートなら18×10=180のはず)ですが、
 フルゲート割れがあったわけではなく、何らかの理由でゴールしていない馬がいたためです。
 2010年ダノンシャンティ(取り消し)、2011年リベルタス(競走中止)、
 2014年ウインフルブルーム(取り消し)、エキマエ(競走中止)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


堅めの予想をしてきています。
とはいえ、上位2頭が抜けた評価をされているわけでもないですが。(*1)

先週と同じように、トライアル(的なレース)の勝馬が出ているにも関わらず、2着馬を上に見ていますね。
京都新聞杯の1、2着馬の話です。
確かに、去年は京都新聞杯の2着からロジャーバローズが勝ってますが、学習の仕組み上、それだけでは高い評価にはならないはず。
それに、前走京都新聞杯2着以下でダービーで馬券圏内に来たのが過去10年ではそのロジャーバローズだけ。
京都新聞杯1着だと、トーセンホマレボシ(3着:2012年)、キズナ(1着:2013年)、サトノラーゼン(2着:2015年)がありますが。

ヴァルコスは青葉2着ですが、そもそも1着馬(オーソリティ)が出てないので。
ちなみに、青葉賞出走馬でダービーで好走した例は過去10年を見ると以下の通り。
・ウインバリアシオン(1着→2着:2011年)
・フェノーメノ(1着→2着:2012年)
・アポロソニック(2着→3着:2011年)
・マイネルフロスト(6着→3着:2014年)
・アドミラブル(1着→3着:2017年)
勝馬が10年で3回ダービーで馬券に絡んでいるのは、京都新聞杯と同じですね。

オークスはものの見事に、トライアル(的なレース)の勝馬の方が馬券に絡んできましたが、ダービーはどうなるでしょうか。

*1 ハイパーパラメータを変更してから、上位のスコアが飛びぬけて良くなるということはなくなってます。
  この点は元に戻したほうがより分かりやすい結果になるのか…と思ったりもします。
  
  ちなみに、ハイパーパラメータを元に戻した(class_weight=None)場合の結果は以下です。
   ◎コントレイル(0.618)
   ○サリオス(0.445)
   ▲ヴァルコス(0.437)
   △ワーケア(0.371)
   △マンオブスピリット(0.344)

競馬予想(2020/05/24) 東京11R オークス(G1)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/05/17 ヴィクトリアマイル)から変更していません。

・学習データ
 2010年から2019年までに実施されたオークスに出走した馬の、出走当時のデータ。

 レース数 = 10
 出走馬数 = 178
 
 ◎デアリングタクト(0.753)
 ○リリーピュアハート(0.704)
 ▲デゼル(0.631)
 △ホウオウピースフル(0.524)
 △アブレイズ(0.522)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


たびたび、「それはちょっとなあ…」と私自身は思う予想を出してくる自作AIですが、今回は「なるほど」と思える予想を出してきました。
前哨戦の勝利馬である、ウインマイティーやウインマリリンよりも、そこで負けたリリーピュアハートやホウオウピースフルが上位に出てきているあたりが興味深いですね。

ちなみに、過去10年の両レース経由のオークス好走馬は以下の通り。
・忘れな草賞組
 エリンコート(2011年)、ミッキークイーン(2015年)、ラヴズオンリーユー(2019年)がいずれも1着→1着。
 他の好走例はなし。
 偶然にも4年おきに好走。その前の好走例は2007年のラブカーナで2着→3着でやはり4年間隔。
 
・フローラS組
 2010年:サンテミリオン(1着→1着同着)、アグネスワルツ(2着→3着)
 2011年:ピュアブリーゼ(3着→2着)
 2012年:アイスフォーリス(2着→3着)
 2013年:デニムアンドルビー(1着→3着)、エバーブロッサム(2着→2着)
 2016年:チェッキーノ(1着→2着)、ビッシュ(5着→3着)
 2017年:モズカッチャン(1着→2着)
 ちょくちょく好走馬は出してますが、勝馬は1頭だけで、忘れな草賞よりも少ないです。

デゼルが上位に出てきているのは、昨年のカレンブーケドールの影響?
スイートピーS組は昨年のカレンブーケドール以外は散々な結果(※)なので、その1頭だけの結果が大きくことはなさそうですが。
だとすると、2戦のパフォーマンスを評価しているのかな。

※過去10年では他に3着以内なし、馬券内は2007年のラブカーナ(スイートピー2着→オークス3着)まで遡る必要あり。
 2007年はド本命級2頭(ウオッカ、ダイワスカーレット)不在となった年なので、その影響もあるか…。

競馬予想(2020/05/17) 東京11R ヴィクトリアマイル(G1)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関して、前回(2020/05/10 NHKマイルC)から、ランダムフォレスト内に含む木の数を変えてみています。

・学習データ
 2010年から2019年までに実施されたヴィクトリアマイルに出走した馬の、出走当時のデータ。

 レース数 = 10
 出走馬数 = 177
 
 ◎アーモンドアイ(0.673)
 ○ラヴズオンリーユー(0.671)
 ▲シゲルピンクダイヤ(0.595)
 △ノームコア(0.563)
 △ダノンファンタジー(0.548)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


馬体重発表後に予想させてます。

この中では、ノームコア(-12)、ダノンファンタジー(-20)の馬体重減が大きいのが少し気になりますね。


そういえば、取り消しの影響が考慮できてないですね…。

以前は、出走馬の組み合わせや相対比較のようなパラメータは全く入っていなかったので、取り消しがあろうがなかろうが予想結果に影響はなかったのですが、今はそういったパラメータも少しは入っていますので、取り消しがあるのとないのとでは予想結果が変わってきます。
微々たるものかもしれませんが。

今の今まで取り込み忘れに気が付いていませんでした…。
というわけで、ディメンシオンもセラピアも出走する体で予想がなされてます。(汗)

競馬予想(2020/05/10) 東京11R NHKマイルカップ(G1)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/05/03 天皇賞(春))から変更なし。

・学習データ
 2010年から2019年までに実施されたNHKマイルカップに出走した馬の、出走当時のデータ。
 ただし、地方競馬に出走した時の結果を取り込めていません。
 (例えば、リエノテソーロ(2017年2着)はNHKマイルまでに5戦4勝なのですが、このうちの2戦(エーデルワイス賞・全日本2歳優駿。ともに1着。)はなかったことになり、3戦2勝で迎えたことになっています。)
 これは今までもそうでしたが、ここまでに地方出走歴があってここで好走した馬がいるのを思い出したので書きました。
  
 レース数 = 10
 出走馬数 = 178
 
 ◎サクセッション(0.649)
 ○ストーンリッジ(0.617)
 ▲サトノインプレッサ(0.603)
 △ルフトシュトローム(0.538)
 △ラインベック(0.512)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


馬体重発表後に予想させてます。

自分で作っておいてなんですが、ストーンリッジがサトノインプレッサよりも上に来る理由はなんなのだろうか。
戦績はともに3戦で前走毎日杯、マイルに勝鞍もある。父も同じディープインパクトで、前走はサトノインプレッサに1秒負けているのですが。
そういうの関係なしに、穴馬が突っ込んでくる傾向があるということでしょうか。


自作AI予想を始めて1年以上たちましたが、今も手探りです。

競馬予想(2020/05/03) 京都11R 天皇賞(春)(G1)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/05/02 青葉賞)から変更なし。

・学習データ
 2010年から2019年までに実施された天皇賞(春)に出走した馬の、出走当時のデータ。
 レース数 = 10
 出走馬数 = 170
 
 ◎フィエールマン(0.643)
 ○シルヴァンシャー(0.549)
 ▲キセキ(0.541)
 △ユーキャンスマイル(0.531)
 △トーセンカンビーナ(0.509)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


馬体重発表後に予想させてます。

過去10年で170頭出ているのが私的には意外でした。
2010年から順に、18、17、18、18、18、17、18、17、17、12頭の出走で、去年まではフルゲートかそれに近い頭数が出ていたんですね。
なぜか、平均14頭ぐらいのイメージがありました。

で、予想内容についてちょっと。
0.50超過が5頭も出ました。
フィエールマンの評価が少し抜けていることもあり、この予想を信じるなら、馬券的にはフィエールマンから上記4頭への流しがよい感じでしょうか。

競馬予想(2020/05/02) 東京11R 青葉賞(G2)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/04/26 フローラS)から変更なし。

・学習データ
 2010年から2019年までに実施された青葉賞に出走した馬の、出走当時のデータ。
 レース数 = 10
 出走馬数 = 166
 
 ◎フライライクバード(0.619)
 ○ダノンセレスタ(0.575)
 ▲フィリオアレグロ(0.567)
 △ディアスティマ(0.494)
 △ヴァルコス(0.469)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


馬体重発表後に予想させてます。


騎手の移動制限が絡んでそうな乗り替わりはそれほど多くないですね。

去年も予想させているこのレース、結果は◎--で、5番手以内で評価した馬はリオンリオン(5番人気1着)だけが3着以内に来てました。
ただ、当時とは今では予想に使っているパラメータもモデルも全く違ってます。
学習データ量も過去6年分と過去10年分で違ってますね。
(これは、データの取り込みが昨年の今頃はそもそも過去6年分しかなかったという話でしかないですが。)

で、今のやり方で2019年の青葉賞を2009~2018年のデータをもとに予測すると…大外れでした。A^^;

競馬予想(2020/04/26) 東京11R フローラS(G2)

投稿を初めてからちょうど1年が経ちました。

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/04/25 福島牝馬S)から変わらず。

・学習データ
 2010年から2019年までに実施されたフローラSに出走した馬の、出走当時のデータ。
 レース数 = 10
 出走馬数 = 173
 
 ◎ヴォリアーモ(0.641)
 ○レッドルレーヴ(0.609)
 ▲ホウオウピースフル(0.541)
 △フアナ(0.483)
 △ウインマリリン(0.482)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


馬体重発表後に予想を実行しています。
人気のスカイグルーヴの評価は8番手にとどまっています。

過去の傾向データをベースに予想する以上、2戦1勝とか、1月以来とか、そういった戦績で馬券圏内に来た馬がほとんど来ていなさそうなパターンだからでしょうか。

似たようなケースは、2013年のサングレアル(4番人気1着、2戦1勝で前走は1月の福寿草特別(4着))がありますが。

競馬予想(2020/04/25) 福島11R 福島牝馬S(G3)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関して、前回(2020/04/19 皐月賞)から変更してます。
今まで、class_weightをNoneのままでモデル作成していたのですが、今回からbalancedに変更しました。
学習データが正例(3着以内)と負例(4着以下)のバランスが悪いものなので、こうした方がよい結果にならないかと。
いくつかのパターンで、Grid Searchしてみたところ、balancedが採用されることが多かったので、学習コストを考えてここはblancedに固定しました。

・学習データ
 2010年から2019年までに実施された福島牝馬Sに出走した馬の、出走当時のデータ。
 レース数 = 9
 出走馬数 = 133
 
 ◎デンコウアンジュ(0.707)
 ○リュヌルージュ(0.584)
 ▲カリビアンゴールド(0.552)
 △エスポワール(0.490)
 △フェアリーポルカ(0.479)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


デンコウアンジュは去年勝利で一昨年3着、3年前も4着とこの条件での好走が続いているので、上位評価も仕方ないかと。
あとは、基本的に中山牝馬Sの上位を、上位に見ている形ですね。

競馬予想(2020/04/19) 中山11R 皐月賞(G1)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/04/12 桜花賞)から変更してます。
桜花賞終了後にブログ更新したとおり、騎手の実績に関する情報が入らないようにしました。

・学習データ
 2008年から2019年までに中山で行われた皐月賞に出走した馬の、出走当時のデータ。
 (※期間中に含まれる、2011年の東京開催を除外)
 レース数 = 11
 出走馬数 = 193
 
 ◎コントレイル(0.467)
 ○サリオス(0.433)
 ▲ダーリントンホール(0.394)
 △レクセランス(0.387)
 △アメリカンシード(0.326)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


3強と目されている中では、サトノフラッグが入らず。
コントレイル、サリオスにしても抜けているという評価ではないですね。

馬場状態が気になりますが、急速に回復して現在は稍重。
私が住んでいる場所は中山競馬場からそんなに離れていないところなのですが、ここは天気も良くて気温は上がって風もそれなりに吹いている状態。
なので中山競馬場も同じような状況であり、まだまだ回復するとは思います。
皐月賞が行われる頃には、良馬場近くまで回復するのではないでしょうか。

今、芝で行われた8Rは、外から差したレーン騎手の騎乗馬が1着。
馬場状態がどうなるかは、距離も皐月賞と同じ9Rも参考になりそうですね。

競馬予想(2020/04/12) 阪神11R 桜花賞(G1)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/04/11 ニュージーランドトロフィー)からちょっと変更してます。
といって、ハイパーパラメータを少し調整してみただけで、考慮する特徴量は変えてないですが。

・学習データ
 2010年から2019年までに行われた桜花賞に出走した馬の、出走当時のデータ。
 レース数 = 10
 出走馬数 = 178
 
 ◎クラヴァシュドール(0.733)
 ○レシステンシア(0.645)
 ▲マルターズディオサ(0.426)
 △リアアメリア(0.403)
 △サンクテュエール(0.335)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


馬体重発表後に予想を実行しています。

阪神JR→チューリップ賞の1~3着馬をそのまま上位に評価しています。
ちなみに、上位5頭以下は、ミヤマザクラ、マジックキャッスル、デアリングタクトと続いて、それ以降は評価値が大きく下がります。

デアリングタクトが評価低いのは…なんだろう?
エルフィンスSからの直行では、マルセリーナという例もあるんですが。
(この年は、最有力扱いされていたレーヴディソールが阪神JF・チューリップ賞連勝後離脱という要素もありましたが、学習データには有力馬の離脱なんて予想はありません。)

とはいえ、前走がOP以下の馬の成績が芳しくないのは事実で、3着以内に来たのはそのマルセリーナだけ。
2戦2勝でエルフィンSからの直行で上位人気という点では、他にいるのはトーセンソレイユ(2013年3番人気7着)
…これが評価を下げるほうに引っ張ってる?

10Rから重馬場になりましたね。
予想するのが難しくなります。

続きを読む

競馬予想(2020/04/11) 中山11R ニュージーランドトロフィー(G2)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/04/04 ダービー卿CT)から変更ありません。
※モデル作成部分の改造、最近さぼってますね…。

阪神牝馬Sでやりたかったのですが、今の施行条件になったのが2016年(それまでは1400m)で、学習データが4レース分しか確保できなかったので断念。


・学習データ
 2010年から2019年までに行われた中山で開催された(*1)ニュージーランドトロフィーに出走した馬の、出走当時のデータ。
 レース数 = 9
 出走馬数 = 140
 
 *1 東日本大震災の影響で2011年は阪神で施行されていますので、それを除外。

 ◎オーロラフラッシュ(0.361)
 ○ペールエール(0.324)
 ▲ハーモニーマゼラン(0.289)
 △カリオストロ(0.265)
 △コウソクスピード(0.249)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


馬体重発表後に予想を実行しています。

先週は、当予想ではプリモシーンが抜けていましたが(予想の結果としては散々でしたが)、今週は予想しては混戦模様と想定。
現実のオッズも、1番人気(オーロラフラッシュ)で5.0倍と、抜けた馬はいないという評価になってますしね。

一応、過去10年分のデータによる検証では、評価値0.30超過の馬は全馬3着以内に来ているのですが。

競馬予想(2020/04/04) 中山11R ダービー卿CT(G3)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/03/29 高松宮記念)から変更ありません。

この春の中山/阪神はまるっと無観客競馬となってしまいましたが、このご時世、やむをえないですね。
2週間後にはピークアウトしていると良いのですが。

・学習データ
 2010年から2019年までに行われた中山で開催された(*1)ダービー卿CTに出走した馬の、出走当時のデータ。
 レース数 = 9
 出走馬数 = 144
 
 *1 東日本大震災の影響で2011年は阪神で施行されていますので、それを除外。

予想内容
 ◎プリモシーン(0.535)
 ○ペプチドバンブー(0.341)
 ▲ジャンダルム(0.287)
 △マイスタイル(0.279)
 △レイエンダ(0.276)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


プリモシーンの3着以内は堅く、それ以外は混戦という見立てですね。

先週の高松宮記念の予想は、予想上位5頭の中ではグランアレグリアが3位入線したのみ。
難しいですね。

競馬予想(2020/03/29) 中京11R 高松宮記念(G1)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/03/28 日経賞)から変更ありません。

新型コロナによる無観客競馬に続き、中山で雪で開催中止→火曜日に続行競馬と、いろいろ起こりますね。

・学習データ
 2010年から2019年までに行われた中京で開催された(*1)日経賞に出走した馬の、出走当時のデータ。
 レース数 = 9
 出走馬数 = 161
 
 *1 東日本大震災の影響で2011年は阪神で施行されていますので、それを除外。

予想内容
 ◎タワーオブロンドン(0.570)
 ○アイラブテーラー(0.516)
 ▲グランアレグリア(0.507)
 △シヴァージ(0.432)
 △ノームコア(0.431)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


3番人気以内でここに出てきていないのはダノンスマッシュ(現時点3番人気)で、評価は6番手の0.368。
評価値0.330まではほぼ3着以内に来ているモデルなので、上位5頭+ダノンスマッシュ+ダイアトニック(評価値:0.333)で3着までを占めるであろうというのが、今回の予想になります。

じゃあ3連複7頭BOXで実際の馬券を買うかというと…どうでしょう?

買い方工夫すれば、的中さえすればそれなりのプラスにはできそうですが。
この組み合わせで35倍を切っている3連複は4通りしかなく、上から5番目(ダノンスマッシュ・タワーオブロンドン・アイラブテーラー)で65倍ついているので。

競馬予想(2020/03/28) 中山11R 日経賞(G2)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/03/15 フィリーズレビュー)から変更ありません。

・学習データ
 2010年から2019年までに行われた中山で開催された(*1)日経賞に出走した馬の、出走当時のデータ。
 レース数 = 9
 出走馬数 = 122
 
 *1 東日本大震災の影響で、2011年は阪神芝2400mで施行されていますので、それを除外。
   中山芝25と阪神芝24じゃ、条件が違いすぎて…。

予想内容
 ◎エタリオウ(0.483)
 ○サトノクロニクル(0.355)
 ▲ソウルスターリング(0.354)
 △ミッキースワロー(0.316)
 △モズベッロ(0.314)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


エタリオウが少し抜けた評価になっています。
去年の日経賞以来の好走なるでしょうか。

競馬予想(2020/03/15) 阪神11R フィリーズレビュー(G2)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/03/14 ファルコンS)から変更ありません。

・学習データ
 2010年から2019年までに行われたフィリーズレビューに出走した馬の、出走当時のデータ。
 レース数 = 10
 出走馬数 = 169

予想内容
 ◎ケープコッド(0.500)
 ○クーファイザナミ(0.445)
 ▲マテンロウディーバ(0.417)
 △カリオストロ(0.334)
 △アヌラーダプラ(0.320)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


コメントは特になしで。

競馬予想(2020/03/14) 中京11R ファルコンS(G3)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/03/07 オーシャンS)から、特徴量の候補として「逃げ馬に関する情報」をいくつか追加しています。
今回のモデルにおいては、いずれも採用されています。
(モデルによっては、作成過程で落ちることもあります。今回追加した特徴量に限ったことではないですが。)

・学習データ
 2010年から2019年までに行われたファルコンSに出走した馬の、出走当時のデータ。
 レース数 = 10
 出走馬数 = 169

予想内容
 ◎ゼンノジャスタ(0.468)
 ○トリプルエース(0.353)
 ▲アブソルティスモ(0.350)
 △ラウダシオン(0.313)
 △シャインガーネット(0.300)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


ゼンノジャスタが抜けてますが、何を評価されてものなのかがよく分かりません。(汗)
特徴量の重要度と戦績等を見比べているのですが。

続きを読む

競馬予想(2020/03/07) 中山11R オーシャンS(G3)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/02/29 仁川S)から変更ありません。

・学習データ
 2010年から2019年までに行われたオーシャンSに出走した馬の、出走当時のデータ。
 レース数 = 10
 出走馬数 = 160

予想内容
 ◎タワーオブロンドン(0.653)
 ○ダノンスマッシュ(0.557)
 ▲ナックビーナス(0.547)
 △カッパツハッチ(0.267)
 △ハウメア(0.255)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


上位3頭が抜けてます。
メンバー見てると、こういう予想になるのも仕方ないかな~という気はしています。

タワーオブロンドンが58kgと、他の馬より斤量を背負う点についてはAI的にはあまり気にしていないですね。

まあ、58kg以上での出走は4例しかなく、そのうち3着を外しているのは2010年のファイングレイン(16番人気5着)だけなので、そのデータから学習すればそうなるか。

競馬予想(2020/02/29) 阪神11R 仁川S(L)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成に関しては、前回(2020/02/23 小倉大賞典)から、特徴量に関して1点修正しました。
プログラムのバグで、ある特徴量が他の特徴量と全く同じ値になることが判明したので…。
こういうのが見つかると、「過去の予想はなんだったのか」ということになります。
重要度で上位に食い込んでくるような指標ではなかったので、それほど影響はないのかもしれませんが。

・学習データ
 2010年から2019年までに行われた阪神ダ2000m、オープン以上に出走した馬の、出走当時のデータ。
 レース数 = 27
 出走馬数 = 358

予想内容 ※馬体重発表後に更新しました。
 ◎ヒストリーメイカー(0.349)
 ○ミッキーポジション(0.347)
 ▲デザートスネーク(0.330)
 △メモリーコウ(0.322)
 △ジュンヴァルカン(0.321)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


一番評価の高い馬が0.37弱というのはかなり低めです。
本モデル上は、このレースに関しては「これは堅いだろう」といえる馬がいないことを示しています。

ちなみに、初ダートのクリンチャーは7番手評価です。

競馬予想(2020/02/23) 小倉11R 小倉大賞典(G3)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。

モデル作成に関しては、前回(2020/02/08 節分S)から、考慮する特徴量として好走歴に関する内容を2種類増やしてみました。
そのうち1種類は、今回向けに作成したモデルには使われませんでしたが。
(重要度が低い特徴量は、モデル作成処理中にカットオフするようにしていますので、そこにかかった模様。)

また、種牡馬成績に関する統計情報が意図通りになっていなかった、具体的には、最大過去5年分の実績を取り込むようにしたつもりが、そうはならない場合があったのが分かったため、修正しました。
※今まで作ってきたモデルにも影響が…。

・学習データ
 2011年から2019年までに行われた小倉大賞典に出走した馬の、出走当時のデータ。
 レース数 = 9
 出走馬数 = 139

予想内容
 ◎アロハリリー(0.516)
 ○テリトーリアル(0.460)
 ▲ジナンボー(0.410)
 △ヴェロックス(0.409)
 △タニノフランケル(0.333)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


小倉成績のせいでしょうか、アロハリリー(現時点で9番人気)が最上位に来ててびっくりです。
ヴェロックスの評価が低いのは、クラシックでの好走歴は今回の予想モデルではあまり重視されていないからだと思います。
特徴量の中にG2/G1での好走歴というはあるのですが、そもそも、ここまでG2/G1に実績がある馬が少なくとも2011年以降には小倉大賞典に出走していないからでしょう。
なので、機械学習的には、この実績をどう評価していいのかよくわからない状態となっているのではないでしょうか。

競馬予想(2020/02/08) 東京11R 節分S(3勝クラス)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成ロジックは前回(2020/02/02のシルクロードS)から変更なしです。

・学習データ
 2010年から2019年までに行われた、東京芝1600m、1600万条件/3勝クラスに出走した馬の、出走当時のデータ
 レース数 = 56
 出走馬数 = 778

予想内容
 ◎スイープセレリタス(0.563)
 ○アントリューズ(0.483)
 ▲レノーア(0.330)
 △ヴィッテルスバッハ(0.329)
 △エクレアスパークル(0.305)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


上位2頭は人気どころですが、その後5番手評価までに人気薄が2頭と、それなりに面白い予想になってます。
レノーア(現時点で9番人気)は3勝クラスに上がってからの4戦、すべて勝ち馬から0.3秒差以内と、馬券に絡む絡まないはおいておいて堅実な走りを見せていますので、3着以内だったら十分ありそうですね。

エクレアスパークル(同14番人気)は何が評価されたんだろう…?

競馬予想(2020/02/02) 京都11R シルクロード(G3)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成ロジックは前回(2020/01/18の愛知杯)から変更なしです。

・学習データ
 2011年から2019年までに行われた、京都芝1200m 古馬重賞。
 端的に言うと、京阪杯とシルクロードS。
 
 レース数 = 18
 出走馬数 = 297

予想内容
 ◎レッドアンシェル(0.507)
 ○ディアンドル(0.311)
 ▲モズスーパーフレア(0.256)
 △カラクレナイ(0.233)
 △アウィルアウェイ(0.219)
  
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


2番手以降の評価値が低いです。
ブログに投稿している/投稿していないにかかわらず、それなりに予想回数をこなしてきていますが、あまり見ないパターンの予想結果ですね。

本AI的には2番手以下混戦と見ていると理解します。

続きを読む

競馬予想(2020/01/18) 小倉11R 愛知杯(G3)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成ロジックは前回(2019/12/28のホープフルS)から変更なしです。

・学習データ
 2011年から2019年までに行われた以下の条件に当てはまるレース。
  (1) 愛知杯
  (2) 小倉芝2000mのG3
 
 レース数 = 19
 出走馬数 = 294
 
 通常、愛知杯の開催は中京なのですが、今年は小倉開催なので学習データをどうしようか少し考えました。
 ある程度データ量を確保するために、ここは上のようなOR条件で学習データを採ってみました。
 
 ※"小倉で開催された愛知杯(冬開催の芝2000m 牝馬限定G3)"もあるのですが、
  学習データをそれだけに絞ると2010年、2011年の2回しかなく、データ量が少なすぎて…。
 
予想内容
 ◎サラキア(0.427)
 ○パッシングスルー(0.360)
 ▲センテリュオ(0.348)
 △レッドランディーニ(0.334)
 △アロハリリー(0.329)
 
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


RoC曲線を描いたときに得た情報を見ると、閾値0.32あたりから偽陽性率が上がり始めていました。
6番手評価がランドネの0.286だったので、本予想的には◎~△の5頭で馬券を構成するのがいい感じですね。
5頭の中に1~4番人気が入っているので、人気どおりに近いなあ、って感じもしますけど。

競馬予想(2019/12/28) 阪神12R ファイナルS(3勝クラス)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
今年最後のJRAのレースなので、予想させてみました。
モデル作成ロジックは先ほど投稿したホープフルSから変更なしです。

・学習データ
 2010年から2019年(昨日まで)に行われた阪神芝1200m 1600万下/3勝クラスに出走した馬の出走当時のデータ
 当然のことながら、G2時代の情報も含んでいます。
 
 レース数 = 26
 出走馬数 = 356
 
予想内容
 ◎スギノヴォルケーノ(0.541)
 ○ダノンジャスティス(0.510)
 ▲エイティーンガール(0.433)
 △キラーコンテンツ(0.381)
 △ニシノキントウン(0.356)
 
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


施行条件がコロコロと変わっていますね。
私の中のイメージは阪神芝1600m OPなのですが、これは8年前が最後なのか。

現時点で3番人気、2番人気、1番人気の馬を上位3番手までに評価する、堅めの予想となっています。
クインズチャパラが取り消していますが、この馬がいれば3番手評価はこの馬でした。

ちなみに、このモデルで使っている予想ファクターで比較的重要視されているのは騎手実績、上がり3ハロン実績、種牡馬実績でした。
個々の馬に関する要素が上位に出てきていないのが気になるところです。

競馬予想(2020/02/02) 東京11R 根岸(G3)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
モデル作成ロジックは前回(2020/01/18の愛知杯)から変更なしです。

・学習データ
 2011年から2019年までに行われた、根岸に出走した馬の出走当時のデータ
 
 レース数 = 9
 出走馬数 = 139

予想内容
 ◎コパノキッキング(0.606)
 ○ミッキーワイルド(0.495)
 ▲ワンダーリーデル(0.462)
 △ワイドファラオ(0.447)
 △ダノンフェイス(0.356)
 
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


ダート初挑戦のモズアスコットを除く、上位人気馬5頭が名前を連ねています。
評価値1番手コパノキッキングと同2番手ミッキーワイルド、同4番手ワイドファラオと同5番手ダノンフェイスの間にそれぞれ少し差があるので、◎から3点に流すのがいいのかな。
まあ、あまり面白い予想ではないですが。

競馬予想(2019/12/21) 阪神11R 阪神カップ(G2)

scikit-learnのRandomForestClassifierを利用して作成した予想モデルによる予想です。
学習に関する要素は先週から変更していません。

・学習データ
 2010年から2018年に行われた阪神芝1400m 3歳以上/4歳以上の重賞レースに出走した馬の出走当時のデータ
 (阪急杯、阪神カップ、2015年までの阪神牝馬Sが含まれています)
 レース数 = 28
 出走馬数 = 396

予想内容
 ◎グランアレグリア(0.586)
 ○シヴァージ(0.452)
 ▲レッツゴードンキ(0.371)
 △イベリス(0.286)
 △メイショウショウブ(0.254)
 
※()内はpredict_probaで取得した、3着以内=Trueの確率
当ブログ内では評価値と呼ぶことにします。


過去の同一レースだけでなく似たような条件下のレース結果を学習データに加えることで、学習データ数を多くとるようにしてみました。
モデル作成時の評価においては、評価値0.37以上の馬は100% 3着以内に入っていました。
今回は▲までの3頭がその値を超えている、なおかつそこから4番手までの間の評価値が離れていることから、3頭を中心に馬券を組み立てれば良いと解釈しています。

比較的人気のない、○のシヴァージが絡んでくれれば、この予想としては満足いく結果になるのですが果たして…?