調教評価指数について（追加説明）

４月辺りから調教タイムを分析して、その結果と機械学習予想とを照らし合わせて最終的な予想を出すようにしていました。
で、その予想分析については非公開にしていましたが、6月末あたりから全レース分公開ています。
ただし、障害と新馬戦はデータが少なく、機械学習予想の精度が落ちるため予想分析はしていません。

・・・ですが、新馬についてはデータが少ないからこそ調教分析の威力が発揮されるやもしれませんので、ちょっと裏でコソコソと分析はしてみようかと考え中。

調教指数の基本的な見方はこちらにまとめてます

: 調教指数の見方について
続きを見る

調教タイムを指数化するにあたっての問題点

今回調教タイムを評価、単純比較しやすいように指数化する。その作業においていくつか問題点がありました。

それをちょっと紹介します。

①調教コース、トレセンによって標準タイムが違う

まあ、当然と言えば当然なのですがコースの形状やウッドチップの質、坂の傾斜などが違うので、美浦坂路コース、美浦ウッドコース、栗東坂路コース、栗東ウッドコースで標準タイムが異なります。
ですから、美浦坂路のタイムと栗東坂路のタイムをそのまま単純に比較することはできないです。

でも、単純比較したいじゃないですか？
これは美浦だから、栗東に比べてタイムが・・・って考えるのメンドクサイです。わけがわからなくなります。

というわけなので、その日一日の同トレセン、同コースの全頭の調教タイムを一纏めにし、そのタイムを標準化（平均ゼロ、標準偏差1の数値群に変換）することで、別のトレセン、別のコースのタイムとも単純比較可能になるように補正をかけました。
（距離はウッド６F、坂路４F）

簡単に言うと、タイムを偏差値化したという事です。
出題傾向、難易度が違うテストでも偏差値を出せば、その人がどの位置に居るのか？というのが分かる。それと同じ理屈ですね。

調教タイムを相対的に比較するという事ですね。

②日によってタイムに差がある

調教タイムで厄介なのは、たとえ同じトレセン、同じコースであっても日によってタイムに差があるということです。

例えば雨がかなり降って馬場状態が悪い場合タイムが落ちたり、早くなったりします。（芝コースはタイムが遅くなるが、ダートコースはタイムが早くなる）

なので、その日の天候によって標準タイムの誤差があるため、日を跨いでのタイムの単純比較は難しいのですが、上記に上げたタイムの標準化によってこの問題はクリアできるものと考えています。
その日のタイムで偏差値化、相対化するわけですからね。

③ウッドコースの調教タイム公開は最近になってから

坂路コースの調教タイムは結構昔からデータベースに登録公開されていましたが、ウッドチップコースについては、美浦トレセンが昨年９月から導入、栗東トレセンが昨年１２月導入。
結構最近になって公開されました。

なので、半年以上前の調教データは結構歯抜けが多くて不完全です。ですが、データが無いのでこれはまあ仕方ない。あるデータだけで分析するしかないです。

あと、調教タイム計測機器が導入されていない芝、ダート、ポリトラック、遠征先（北海道の競馬場など）の調教タイムデータはありません。
これもまあしゃーないです。あるやつだけでやるしか。

できれば、調教指数についても機械学習予想に組み込みたいと考えているのですが、いかんせん、データ量が少ないため学習させられません・・・

④軽く流しているだけの馬

調教タイムの分布を見ると分かりますが、調整のために流しているだけと思われるような遅いタイムが結構あります。（これ計測ミスじゃないの？ってのもありますが・・・）
そういう超遅いタイムまで標準化するとタイム基準が崩れてしまいますので、このヒストグラムの様な正規分布に従っているものから外れる様な調教タイムは、外れ値としてバッサリ切っています。

よって、レース前の追い切りで軽く流しただけの馬については、私の調教タイム分析においては空白、歯抜けの状態になってしまうものがあります。
空白だからといって調教していないわけではありませんのでご注意を。

あと、基本強めの調教は水曜日と木曜日に行います。（レース前の追い切りも）
他の曜日は軽い調整だけで済ませている馬が多いため、その日の調教タイムを標準化しても、水曜、木曜との追い切りタイムとは単純比較ができません。
なので、データ集計は水曜日、木曜日だけに限定しています。
（たまに木曜日の天候が悪すぎて、追い切りが金曜日にずれ込む場合があるんですけど、、、厄介ですね）

⑤調教タイムの標準化も無問題というわけではないが・・・

調教タイムですが標準化すれば全然問題ないというわけではないです。
たまたまその日、有力馬が集まって、早いタイムを量産してしまった場合、相対的にタイムの評価が下がってしまうという可能性も無きにしもあらず・・・。

ですが、そこまで突き詰めるとキリがないので、とりあえずはこれで行くしかないかなぁと思う次第であります。

この様な課題を抱えながら、試行錯誤を繰り返し、次のような調教タイム指数を策定致しました。

調教タイム指数

調教タイムの分析内容ですが、当週の追い切りはもちろんのこと、１週前の調教タイムもスコア化しています。

スコア一覧はこちら

・１週前 and 当週調教スコア
　１週前の調教タイムを標準化し、スコア化したものです。
　０以上で平均以上。マイナスだと平均以下のタイムとなります。
　２以上だとかなりの高水準です。

・１週前 and 当週過去スコア比較
　１週前の調教スコアと、その対象馬の過去の調教スコア（データがあるものすべて）を比較した数値です。
　対象馬の過去の調教タイムと比較して、調子や成長を測ることができます。
　０が過去平均値となりますので、マイナスだと調子が悪い・・・と見ることができるかもしれませんが、軽く流している可能性もあるので、あまり鵜呑みにするのは危険です。
　しかし、レース前なのに強く追えていない・・・というのは結構不安材料になるのではないかと思います。

・１週前 and 当週ラスト１Fスコア
　調教のラスト１Fでどれだけ伸びたか？をスコア化したものです。
　いくらトータルの調教タイムが早くても、後半ダレてタイムを落としてしまう様ではあまり良い調教内容とは言えません。
　長く良い脚を使える。切れる脚を使える事はレースの結果にかなりの影響を与えると思いますので、ラスト１Fの伸びはかなり重要です。
　軽く流す調教でも終いが伸びているかどうかは見ておく必要があるかと。
　スコア化の詳細については長くなってしまうので後述します。

こちらが調教師数のサンプルです

これは2022年7月24日開催の中京記念の調教スコアですが、

基本的に赤色が濃いほど調教評価が高く、青色が濃いほど悪いと判断できます。

左にある機械学習によって弾き出された予想指数と組み合わせてレースの結果を予想するのが良いと思いますが、調教は軽く流しているだけの馬、調教駆けする馬もおりますので過信しすぎるのも良くないかと思います。

あくまで、参考程度に・・・ですね。

ラスト１Fスコアの仕様について

ラスト１Fについては、その１Fのタイムをそのままスコア化してもあまり意味がないと思います。
重要なのはラスト１Fでどれだけ伸びたか？（垂れたか？）　ですし。

では、どうやってその「伸び」を数値化するか？　ですが。以下の算出式で数値化することにしました。

（ラスト１Fタイム　-　ラスト３F、２F、１Fのラップタイムの平均）/　ラスト３F、２F、１Fのラップタイムの平均

つまり３F、２F、１Fがすべて同じラップタイムだったら０
ラスト１Fでタイムを落としたらマイナス
ラスト１Fでラップタイムを上げることができればプラスの数値になります。

素のラップタイムを眺めても、ぱっと見では伸びているかどうかが分かりにくいですが、これならば数値がプラスかどうかで伸びているか否かが簡単に判断できます。

うん。結構便利そう。

ただ・・・この数値には落とし穴がありまして。
以下は4/23のレースに出走した馬について、横軸に調教タイムスコアを、縦軸にラスト１Fスコアをプロットした散布図です。

見ていただければ分かると思いますが、調教スコアが低い（＝調教タイムが遅い）馬ほど、ラスト１Fスコアが高い傾向があります。
近似直線が右肩下がりになってますね・・・

まあ、ちょっと考えれば分かる事でした。あまり本気で追っていなくて、全体のタイムが遅いほど、ラスト１Fの伸び脚を早くし易いですよね。
最後だけピュッと本気出せば良いんですし。

これではちゃんとしたラスト１Fの評価にはなりません。
よって、全体的に補正をかける事にしました。
補正後の散布図は以下のとおりとなります。

真ん中がちょうどゼロになるように、そして調教スコアが高い方が若干ラスト１Fスコアが有利になるようにバイアスを掛けました。

これなら右上の領域にある馬はかなり調教評価が高い・・・と評価することが可能と言えるのではないでしょうか？
・・・どうですかね？

今後も検証を重ねて行きたいと思います

まあ、そんなこんなでタイムを標準化したり、補正をかけたりと結構複雑な処理をかけちゃったりしているのですが、今後も様子を見ながら検証、改良を続けていきたいと思いますので、よろしくお願いします。