調教ランク評価

調教指数をランク化したい

昨年から調教タイムを指数化して単純比較できるようにはしたものの、この指数がどれくらい高ければ的中率、回収率が100%を超えるとか、統計的な指標がなかったため、ちょっと持て余していました。

高かったら良いはず・・・てな感じであくまで参考までに見てましたが、

もっとこう、シンプルに

この条件なら回収率プラスになる とか過去の統計的な裏付けが欲しいんですよね。

といっても、調教タイムがJRAのデータベースに公開されたのが2021年の末でして(坂路は公開されていたが、ウッドコースが遅れていた)、去年の時点では十分なデータ期間が取れなかったので、分析してなかったんですけど、もう一年以上経ちましたのでもう良いだろうって事で、今回統計分析をしてみることにしました。

ちなみにデータの集計期間ですが、2022年9月からのレースが対象となっています。

集計対象データは毎週自動で追加されていき、最新の状態に保たれる様になっています。(まだ、データ数少ないですしね)

調教指数でクラスタリング

今回やったのはクラスタリング分析です。

クラスタリングは機械学習の教師なし学習の一種で、下の図の様に近い特徴を持ったデータでグループ分けするって感じです。

その分けたグループをクラスタと呼びます。

グループ分けしたあと、そのクラスタ毎に過去の1着率や単勝を勝った場合の回収率なんかを集計して、クラスタごとに差が出るかどうかを調べるわけです。

私は調教タイム(ラップタイム)から

① 調教タイムそのもの

② 過去のその馬の調教タイムと比較

③ 調教のラスト1Fの伸び具合

上記の3つを集計、指数化したのですが、クラスタ分けでは例えば、

調教タイムは良いけどラスト1Fの伸びがいまいちなクラスタ  とか

その逆にタイムは平凡だけど、ラストの伸びが良いやつ とか

全体的にいいやつ 全然ダメなやつ

みたいな要領で、クラスタリングの学習モデルがいい感じに分けてくれるわけです。

※調教指数の仕様については以下を参照ください

no image
調教評価指数について(追加説明)

続きを見る

 

各クラスタの分布

その調教評価クラスタリングの分布は以下のようになっています。

上が当週の調教データ、下がレース1週前の調教のデータです。

散布図は横軸に調教評価指数(調教タイム)、縦軸に調教のラスト1Fの伸び率をプロットしています。

要するに右上に行くほど調教タイムが早く、ラストの伸びが良いという事になります。

これを見ていただければ分かると思いますが、調教評価はAが一番良くて、Eが一番悪いです。

ただ、後述するクラスタごとの成績を見ていただくとわかりますが、B、C、Dはぶっちゃけ甲乙付け難いですね。

当週調教についてはDは良くないと判断できるのですが、1週前調教についてはDもいけるんですよね。。。クラスタ分けはあくまで参考程度に、右上にある馬ほど良いんだなと考えていただければと思います。

 

各クラスタ毎の成績を集計

クラスタ数についてはいろいろ試していたのですが、最終的に5個に落ち着きました。

んでもって、私が作った機械学習モデルによって予想した予想1着の馬の調教指数をクラスタリングし、単勝的中率と単勝回収率を集計

※ 2023/4/26 追記

クラスタ分けについて、以前はA~Eの5つに分けていましたが、4/26以降、A~Eそれぞれのクラスタを別の条件で更に2つに分け、合計10個のクラスタに分けることにしました。

例)クラスタAをラスト1Fの伸びが優れている方をA+に、伸びが悪い方はAのままにする

※ 2023/9/26 追記

クラスタを10個に分けていましたが、9/26以降は元の5クラスタに戻します。理由は単純にクラスタ数が多くなると評価が煩雑になるためです。

その結果が以下となります(2022年9月からのレースが対象)

当週調教評価 的中率、回収率

1週前調教評価 的中率、回収率

調教指数は当週調教と1週前調教の2種類あるのですが、それぞれ別々でクラスタリングをしています。

そして、回収率が高いクラスタから順番にA~Eとランクを振り(-は調教データがないもの)

回収率としては、、

当週調教、1週前調教ともにAがズバ抜けて良い。

あとは、

当週調教は BとC

1週前調教は BとCとDが比較的良い。

Eと調教データなしの「ー」は全然ダメという結果になってます。

Aを狙っていけば回収率アップ狙えるかもです。

 

※ 2023/9/26 以下クラスタ数を5個に戻したため削除

更にそのランクの中でラスト1Fの伸びや、過去の調教指数より優れているものを+評価してA+、B+としてランク名をつけています。(2023/4/26 追加)

一番良いA+、B+では回収率が100%超えとかなりいい結果がでました。

的中率30%もなかなかです。 (参考までに1番人気の1着率がだいたい33%前後)

つまり、私の機械学習予想1着+調教評価ランク上位の組み合わせを買えばプラスになるというワケです。

これはすごい。

逆に低ランク、+の評価が付いていない評価のものは避けた方が良いですね。回収率、的中率ともに低すぎです。

ただ、集計期間がまだ半年と短いのでデータを増やしていくともしかしたら数字が変わってくる可能性は十分にあります。

なので、今後の推移を慎重に見たほうが良いかもしれませんね。馬券って短期間であれば回収率100%超えることも珍しくはありませんので。(上記の集計結果は毎週データ追加して更新していきます)

ただ、200レース以上やって、回収率が100%超えているのはただの偶然ではない・・・と個人的には考えてますけどね。

 

あと、注意して欲しいのが AとB+では、一般的にAの方が評価が高くなるように設定するものだと思いますが、私のクラスタリング分析では、評価Aを悪いものと良いものに分割するという手法のため、

AよりB+の方が評価が高くなっています。

基本的に+がついているものが高評価になってしまってます。ややこしくてすんません。詳しくは上の表を参照ください。

 

当週×1週前クロス集計

あと、気になるのが当週調教と1週前調教評価ランクの組み合わせで回収率を集計したらどうなるのか? 

だと思うんですけども、それは以下の結果となりました。

※すべての組み合わせを出すと煩雑になるため、1週前調教についてはA,B,C,D、当週調教はA,B,Cのみを掲載

期待通りA×Aの組み合わせがダントツで良かったためちょっとホッとしています。

的中率も36%超えとかかなりいいのでは?と思う。

A×Aの組み合わせは1日に1レースあるかどうかですが、、積極的に狙って行きたいですね。

 

今後、データ数が増えてきたらこのクロス集計の精度も上がってくるものと思います。

 

 

※ 2023/9/26 クラスタ数を変えたため以下削除

うーん。これは、さすがにクラスタ数10個×10個の組み合わせだとレース数が少なくなってしまい、あまり信憑性があるとは言えないデータになっています。

当週調教なし×1週前Cの組み合わせも回収率200%超えちゃっているんですけども、コレはサンプル数(レース数)が少ないため偶然当たって回収率が高くなっただけ・・・という可能性が否定できません。

特にレース数1桁のものは全くアテにならないでしょう。

なので、このクロス集計は参考までにとどめてください。あくまで馬券は自己責任にてお願いします。

 

 

Copyright© データエンジニアのひとりごと , 2024 All Rights Reserved.