優れた野球予測システムの3つの条件
本文章は、シグナル&ノイズ 天才データアナリストの「予測学」(ネイト・シルバー著)の内容を要約しております。
優れた野球予測システムは、次の三つの基本的な要件を満たしている必要があります。
- 選手のパフォーマンスデータ背後にある背景を説明できること。
- 選手の運と実力を区別すること。
- 選手の能力が年齢と共にどのように変わるか、つまりエイジングカーブを理解すること。
選手のスデータの背景を説明できること
最初の要件は理解しやすいです。
野球は他の多くのプロスポーツとは異なり、プレーするフィールド(野球場)の大きさや形が統一されていません。
例えば、ニューイングランドにある狭いフェンウェイパークは、巨大な駐車場に囲まれたドジャースタジアムよりも格段に小さいです。
結果として、フェンウェイパークでの平均打率はドジャースタジアムでのものよりも高くなる傾向があります。
これは、チームがホームかアウェイでどちらでプレーしたかを見ることで、選手が直面する「球場の要因」を解明できることを意味します。
例えば、1970年代にレッドソックスでMVPを取ったフレッド・リンの場合、彼の通算打率はフェンウェイパークで.347、それ以外の球場では.264でした。
同様に、ナショナルリーグからアメリカンリーグに移籍した選手の成績がどう変わるかを観察することで、その選手にとってどちらのリーグがより実力を発揮しやすいか、そしてその原因が何であるかの手がかりを得られます。
運と実力を区別すること
運と実力を区別することは少々難しい問題です。
野球は、短期間の成績が運に大きく左右されやすいスポーツです。
たとえ最高のチームであっても、全試合の三分の一は負けますし、優秀なバッターでも、五回の打席に三回は出塁できないことがあります。
一シーズン全体を通しても、選手の真の実力が運に影響されることがあります。
例えば、通算打率が.275の選手が、運次第で一シーズンの打率が.300に達する可能性が10%あり、逆に.250に終わる可能性も同じくらいあるのです。
優れた予測システムは、運の影響を受けやすさをデータによって相対的に把握できるものです。
例えば、打率はホームランの数よりも不安定です。
さらに、投手の勝利数は一貫性がないとよく言われます。
投手の勝敗数を予測したい場合には、前シーズンの勝敗数よりも、過去の三振や四球のデータを参考にする方が有益です。
三振や四球の数は、年ごとのばらつきが少ないためです。
どのような予測においても、結果を導く根本的な原因を正確に捉えることが必要です。
三振を取れば出塁を防ぐことができ、出塁を防ぐことが得点を阻止し、それにより相手の勝利を防ぐことができます。
しかし、原因の根本を辿れば辿るほど、より多くのノイズがシステムに入り込んでくる可能性があります。
投手の勝敗数は、その投手のパフォーマンスだけで決まるわけではなく、チームの得点力にも大きく影響されます。
投手自身の力の及ばない部分も存在するのです。
たとえば、シアトル・マリナーズのフェリックス・ヘルナンデスは、2009年には19勝5敗を記録しましたが、2010年は13勝13敗でシーズンを終えました。
彼のピッチングの質はどちらの年もほぼ変わらなかったにも関わらず、2010年はチームの打撃が不振だったことが影響しています。
野球は他のどのスポーツよりも多くのデータを提供しており、過去140年間のメジャーリーグでの出来事はほとんど正確に記録されている。
毎年、数百人の選手がメジャーリーグでプレーし、他のチームスポーツと比べて非常に整然とした形で試合が行われる。
ピッチャーはローテーションに従い、バッターは打順に沿って打席に立つ。
選手の成績は大体がその個々の実力を反映している。
野球は複雑さや非線形性が相対的に少なく、因果関係も理解しやすい。
これらの要因が野球の予測を比較的簡単にしている。
何かの仮定を検証したい場合は、過去のデータを参照して統計的に証明することができる。
これに対して、経済や政治の世界では大統領選挙のように頻繁には起こらないイベントのデータが不足しているため、予測はよく迷走する。
エイジング・カーブに注意する
選手の能力が毎年変わらないと仮定すると、ノイズから重要なシグナルを区別して必要な情報をすべて得られる。
だが、現実には野球選手の能力は常に変動している。
何千もの選手を分析する中で、ジェームズはあるパターンを見つけた。
典型的な選手は20代後半まで成長し、その後は徐々に衰え始め、30代半ばになると衰えが顕著になるという「エイジング・カーブ」がある。
オリンピックの体操選手は10代で、詩人は20代、チェスプレーヤーは30代、経済学者は40代でピークを迎える。
フォーチュン500に選ばれる大企業のCEOの平均年齢は55歳である。
ジェームズの研究によれば、野球選手は27歳でピークを迎えるとされる。
1985年から2009年にMVPに選ばれた50人の選手を見ると、60%が25歳から29歳の間に、20%が27歳でピークを迎えている。
これは、身体的にも精神的にも最もバランスが取れており、能力を最大限に発揮できる時期と考えられる。
球団の関係者にとって、「エイジング・カーブ」という概念は非常に重要である。
野球選手は、メジャーリーグでプレイしてからフリーエージェントになるまでに最低6シーズンを要する。
通常、ドラフトで契約した球団が決定権を持ち、選手は市場価格を主張することができない。
一般的に、選手は23歳か24歳でメジャーリーグへ昇格し、フリーエージェントとなるころには30歳前後になる。
これは選手がピークを過ぎた時期に相当する。
その結果、球団は30代のフリーエージェント選手に20代の時のような活躍を期待して高額な料金を支払うことになりがちだが、しばしば期待に応えられず、成績が下がることが多い。
にもかかわらず、契約は保証されており、球団は契約を撤回することができない。
ジェームズのエイジング・カーブは非常に滑らかで美しい曲線を描いていた。
平均的な選手は27歳でピークを迎える可能性が高いが、実際には選手によって年齢の取り方が異なる。
例えば、1980年代にアトランタ・ブレーブスの三塁手として活躍したボブ・ホーナーは、20歳で新人王を受賞し、24歳でオールスターに選ばれたが、30歳での怪我が原因で日本のチームに移籍し、その後の野球人生は早くに終わってしまった。
一方で、シアトル・マリナーズのエドガー・マルチネスは27歳まで目立った成績を残すことはなかったが、30代後半になってから大活躍し、打点王に輝いた。
ホーナーやマルチネスのような例は極端かもしれないが、実際にエイジング・カーブに沿って成績が上がる選手は少なく、多くは山あり谷ありのパターンをたどることが一般的である。
現実のエイジング・カーブには多くのノイズがあり、平均すれば滑らかな曲線を描くが、平均は「1.7人の子どもがいる家庭」と同じで、あくまで統計上の抽象的な概念である。
たとえば、守備位置によってもピークの時期が異なり、肉体的に厳しいポジションを守る選手は、より早い時期にピークを迎えることがある。
また、オールラウンドな能力を持つ選手は、一つか二つの特技を持つ選手よりも選手生命が長いことが多い。