很少有運動項目像棒球一樣與數據分析如此緊密相關。160多年來,統計學家一直試圖用數據來分析比賽。2015年,美國職業棒球大聯盟(Major League Baseball)利用MLB Statcast(一種收集大量比賽數據的跟蹤技術)徹底改變了這項以使用複雜數據而著稱的運動。
德州遊騎兵棒球隊研發助理總監Alexander Booth表示,Statcast的數據、球隊自己的數據源、該團隊對分析、機器學習和人工智慧的使用,都是球隊在2023年奪得世界大賽冠軍的關鍵因素。
從2015年到2019年,Statcast主要是由攝影機和雷達系統組成的,到了2020年,MLB與Hawk-Eye Innovations合作提供了光學跟蹤系統。現在,每個MLB俱樂部都有12個Hawk-Eye攝影機部署在球場周圍,其中5個用於投球跟蹤,其他7個用於跟蹤球員和擊球。在Hawk-Eye的幫助下,Statcast跟蹤和量化各種數據,包括投球(速度、旋轉速度、旋轉方向以及動線)、擊球(出口速度、發射角度、擊球距離)、跑動(衝刺速度、上壘時間)和守備(手臂力量、接球概率、捕手出壘時間)。
Booth說:「我們不僅擁有傳統的球跟蹤指標,如速度和旋轉率,我們還有球員位置數據,我們以每秒30幀的速度跟蹤場上每個人的位置,這需要處理和解析大量資訊。」
他指出,新的數據寶庫讓球隊可以開始分析生物力學:身體在進行運動的過程中是如何移動的。
「我們正在觀察投球動作,觀察擊球動作,現在我們能夠以每秒高達300幀的速度跟蹤這些關節中心——你的頭部、肩膀、膝蓋和腳趾。」
這些數據為AI提供了各種預測,從對抗先發投手的最佳擊球陣容,到面對特定投手部署特定擊球手的最佳防守位置,再到傷病預測。
簡化團隊合作
Statcast推動了德州遊騎兵隊的分析團隊開始轉型,Booth在2018年加入球隊,是球隊的第五名成員。他記得當時他們使用了很多電子表格,團隊的很多工作都是由總經理閱讀或聽到某些內容,然後再要求分析團隊進行調查,這通常涉及大量的SQL查詢、將數據輸入電子表格以及查看本地實例。
他說:「如果有多個人在處理同一份電子表格,如何有效地維護單一事實來源?你怎麼知道哪個版本是真實的?當時任何有關機器學習或者預測建模的需求都會來找我們,但回想起來,當時還是很原始的狀態。」
分析團隊開始將運營從本地系統轉移到雲端,利用Databricks作為數據湖庫,利用Prophecy的低代碼數據轉換平台來創建數據管道,讓團隊能夠處理一些數據集,其中包括了整個組織中的經典數據以及新文本、影片、生物識別、傳感器/物聯網和實時流數據。使用Prophecy作為Databricks Data Lakehouse的接口,團隊就能夠創建數據轉換,而無需提升成員的Spark技能,建立和管理每個數據域特定的可重用組件,讓數據分析師儘早參與到創建生產管道的過程中,提供可用於分析的數據以支持新的AI和分析。
現在這個團隊已經擴大到約25人,但Booth表示,目前團隊仍然是很精簡的,保持著類似初創公司的思維方式。
他說:「我們像一家科技初創公司一樣迅速行動並迅速失敗,但這次遷移已經取得了一些成果,這些成果造就了我們今天取得的成就,尤其是贏得世界大賽。這一定為也改變了我們很多的防守模式。」
規則和策略的轉變
在過去的100年左右,一種稱為防守轉移(或內場轉移)的策略在棒球比賽中很流行。這種轉移主要用於對付左撇子擊球手,涉及三壘手移動到通常由游擊手占據的位置,游擊手移動到二壘的右側,二壘手移動到右外野淺草地,成為事實上的第四外野手。這種轉移並非沒有防守漏洞:它使三壘和左外野周圍的區域防守更加稀疏,為左撇子擊球手創造了利用機會的機會。
Booth和他的團隊建立了模型,不僅可以預測部署轉移的最佳時間,還可以預測球員在場上的位置。2023年,美國職業棒球大聯盟實施了幾項新的規則,對防守轉移施加了限制,要求球隊在投球前至少有四名內野手在內場泥土上開始比賽,規則還要求球隊在投球前在二壘每一側需要各有兩名內野手。
「即使最近禁止了換位,我們仍然可以建立模型,告訴游擊手Corey Seager應該站在離二壘這麼近的地方,以及在外野,中外野手Evan Carter應該在多遠的地方對特定球員打飛球,這特別有助於我們進入季後賽。」
去年美國職業棒球大聯盟的另一個大新聞就是遊騎兵隊的防守實力,特別是在完成雙殺方面。
「游擊手Marcus Semien和Seagar是兩位非常有天賦的球員,他們可以完成很多非常困難的雙殺,但我認為,我們建議他們站在最有可能完成雙殺的位置,從而為他們取得成功奠定了基礎。」
AI和耐力
在生物力學方面,分析團隊的很多工作都集中在預測和了解傷病及疲勞上。Booth指出,近年來,德州遊騎兵隊引進了投手Jacob deGrom和Max Scherzer,兩人現在都快30歲了。
「這兩個人都非常優秀,但他們年紀大了一點,更容易受傷,我們想確切了解如何管理他們的運動量。」
通過利用比賽和訓練中生成的生物力學數據,以及球員鍛煉和營養師的數據,甚至睡眠方面的研究,德州遊騎兵隊能夠更好地了解球員的健康和表現。他指出,對傷病和球員管理的新認知,對於德州遊騎兵的小聯盟附屬團隊產生了更大的影響。
「我們利用數據來了解這些球員的整個旅程,例如,當他們第一次在多米尼加共和國打新秀球賽的時候,我們如何讓他們在三、四或五年內成為最好的球員,這也與我們的業餘球探部門密切相關。」
Booth表示,早期,他的團隊分析數據的主要消費者是前台,他們使用這些數據和報告進行球員評估、進行交易等。但隨著數據變得越來越容易獲取,團隊中越來越多的人開始使用數據。
「我們的教練要求提供更多數據,試圖用原始數據證明他們專業領域知識的直覺,我們現在有分析師隨隊出行,他們是我們的溝通渠道。」
數據普及化發揮了重要作用,幫助團隊在各個層面更加以數據為導向。
「我們的原則之一,就是使用數據可以帶來顛覆性的影響,雖然任何人都可以使用低代碼和BI工具,創建出色的報告,但他們必須首先確保數據是乾淨且可用的。」
這一原則讓Booth對生成式AI的潛力感到興奮,因為德州遊騎兵隊大多數潛在數據消費者都不是技術用戶,生成式AI將使那些非技術用戶能夠與團隊資料庫進行交互並獲得最大限度提高績效所需的洞察力。