AMD EPYC 7002是他們在2019年推出的伺服器處理器,採用Zen 2架構,代號為Rome,而近日AMD發布了EPYC 7002處理器的勘誤表,上面指出「在上次系統重置後大約1044天後,核心將無法退出CC6。」要解決這一問題你需要重啟伺服器,而且AMD已經表示不會修復這一問題。
1044天大約是34個月的時間,也就是說不到3年,而準確的時間應該是1042天12小時,出問題的可能是CPU REFCLK在54位帶符號整數中計算10ns滴答,如果你計算這些滴答中的9千萬億次以上,你會在1042天12小時的時候溢出,一旦發生溢出核心就將處於卡死狀態,並且不會接受任何外部中斷請求,直到你把電源關閉並重啟,這就能重置計算器了。
這個問題能夠被發現就表明不止一個系統練習運行了將近三年而且還沒有重啟,發現這個漏洞應該花了很多時間,AMD的指南中表示,導致這個問題的遠呀是核心無法脫離CC6省電模式,進入該模式後會降低CPU電壓和時鐘頻率,而不同系統出bug的時間誤差可能取決於擴頻調製和REFCLK頻率慘況。
AMD不打算發布任何針對CC6錯誤的修復程序,而是建議管理員禁用CC6以避免核心卡死,或者乾脆在時間期限來臨前定期重啟一次系統。