11月2日,以「數智未來 因你而來」為主題的鯤鵬應用創新大賽2023全國總決賽在四川成都圓滿落幕。經過長達6個月的層層篩選與激烈角逐,最終從3大賽事、5大賽道中評選出了13個金獎、16個銀獎、19個銅獎。
其中來自華中科技大學資料庫隱私保護隊提交的《基於openGauss安全的差分隱私醫療診斷輔助查詢系統》,在全國總決賽中獲得高校賽openGuass開源應用創新賽道金獎。
openGauss作為最具創新力的開源資料庫根社區,當前已有超過430家企業加入社區,超過5800名開發者參與社區貢獻,社區代碼行數已經超過1500萬行;多家社區夥伴基於openGauss推出的資料庫商業發行版已經在政府、金融、運營商、電力、製造、醫療、能源等行業的核心場景中得到廣泛應用;預計年內openGauss在非雲集中式場景的市場份額有望突破20%,跨越生態拐點。
此項目正是利用openGauss實時高性能、高可用、高安全特性,依託於華中科技大學「大數據技術與系統國家地方聯合工程研究中心」,聚焦於醫療診斷輔助查詢服務的隱私與效率,結合新穎的差分隱私深度學習方法DPDLDA,提出了創新及實用的安全差分隱私醫療診斷輔助查詢系統。
《基於openGauss安全的差分隱私醫療診斷輔助查詢系統》從全國50多個頂尖院校的400多支隊伍中脫穎而出,獲得鯤鵬技術專家、各行業領域專家、市場價值專家組成的專家評審團的高度認可。該方案有哪些過人之處?我們分別從團隊協作、社會影響、商業價值、技術領先以及創新性等方面給大家一一介紹。
團隊協作:技術創新與理論創新的融合實踐
華中科技大學資料庫隱私保護隊以其卓越的技術實力和創新能力,成為了矚目的明星團隊。是因為該團隊匯聚了一批頂尖的專家和年輕才俊,他們在隱私保護技術的研究與應用方面取得了一系列令人矚目的成果。
其中,該團隊的指導老師為華中科技大學電腦學院教授、博士生導師丁曉鋒教授,主要研究方向包括面向隱私保護的大數據計算方法和查詢處理。 2021、2023 年獲CCF-華為胡楊林基金。隊長盧俊鋒,華中科技大學博士研究生研究方向是數據隱私保護和差分隱私,校內合作成果被 CCF-A類期刊TKDE錄用,作為負責人曾參加中國電腦設計大賽獲全國二等獎,擁有專業的資料庫加密算法研究基礎和實踐經驗。
核心技術成員陳林,華中科技大學博士研究生,已在IEEE TIFS、TCE,ACM TDS,Information Sciences,期刊上以第一作者發表多篇論文,具有紮實的理論基礎。還包括馬傑、張琪以及董師瑜等華中科技大學碩士研究生、大學生等技術人員參與,整個團隊擁有豐厚的實踐開發經驗,熟練掌握算法底層邏輯和加密算法數學原理,具備核心技術創新能力等特點。通過立足理論基礎,與實踐經驗深度融合推出了此次方案。
社會影響:國家高度重視數據隱私保護
無需置疑,數字經濟已成為經濟增長的重要引擎,國家十四五規劃提出大數據、雲計算、網路安全等已經成為數字經濟重點產業。
其中數字環境中數據泄露對個人和社會都可能造成嚴重的影響。對個人而言,包括個人身份資訊、財務資訊、健康記錄等敏感資訊,導致個人隱私暴露,不僅會是個人隱私受到侵犯,而且會給被不法分子用於身份盜竊、欺詐和其他犯罪活動,給個人帶來經濟和法律風險。
對於組織和社會的影響則會更大,數據泄露事件會削弱人們對組織和機構的信任,以及敏感資訊可能被用於網路攻擊和其他形式的安全威脅等。
基於此,我國關於數據隱私保護的立法也在不斷推進,目前已經形成了包括《網路安全法》《數據安全法》和《個人資訊保護法》等三部基本法律為綱的治理框架。網信辦、工信部、公安部等不同部門都頒布條例要求嚴格保證數據安全與個人資訊安全,我們必須認識到,數隱私保護對社會經濟影響越來越大。
商業價值:醫療行業前景廣闊且醫療數據易受攻擊
當下隨著我國人口老齡化趨勢加劇,對醫療服務、健康保險等的需求也在不斷增加。中商產業研究院數據顯示,2022年我國智慧醫療應用規模約為780.5億元,預計未來行業將繼續高速發展,到2023年國內智慧醫療應用規模可達到936.6億元。智慧醫療應用呈現高速增長趨勢。
另一方面,近年來,越來越多的醫療設備開始聯網,國家醫保局數據顯示,截至2022年11月底,全國住院費用跨省聯網定點醫療機構數量為6.39萬家。門診費用跨省聯網定點醫療機構8.59萬家。
醫院在提供大量便捷的第三方服務的同時,基於包括社會機構、社保中心、醫院等眾多醫療數據的源頭,也更容易受到攻擊。加強數據隱私保護不僅有很強的社會意義,具體到醫療領域,保護用戶的數據隱私也是建立和諧的醫患關係,改善民生的重要舉措。
《基於openGauss安全的差分隱私醫療診斷輔助查詢系統》就是針對患者醫療資訊的隱私需求而設計,技術上則基於openGauss全密態資料庫,藉助其高性能、高可用、高安全,將差分隱私和深度學習結合起來,實現在診療查詢時,可以保護用戶的隱私不被泄露。
「我們的方案引起了華為運動健康領域專家的關注。他們指出,當前的運動健康領域非常重視數據安全流通和個人隱私數據的保護。我們提出的方案巧妙地結合了差分隱私和深度學習的優化方法,既保證了數據的可用性,又確保了敏感數據的安全。這為運動健康領域的數據隱私問題提供了一種新的解決思路。」 華中科技大學資料庫隱私保護團隊隊長盧俊鋒分享到。
創新性:全球首個將差分隱私和深度學習結合的系統
差分隱私 Differential privacy是一個用於公開分享數據集資訊的系統,可以在保證高度隱私的同時,從資料庫中生成非常準確的統計數據。差分隱私使得個人或組織可以安全地共享敏感數據,例如醫療記錄、用戶行為數據等,而無需擔心隱私泄露。
而現存的深度學習與隱身保護技術結合存在以下痛點:
首先,單純的深度學習方法速度快,但是存在隱私泄露的風險,深度學習的模型訓練需要大量的數據集,攻擊者可以藉助模型反演攻擊得到訓練的原始數據。
第二,差分隱私對深度學習訓練的梯度注入噪聲,來實現隱私保護。差分隱私的引入,會造成模型精度的急劇下降。未經過差分隱私深度學習方法精度下降巨大。
第三,現有方法難以權衡精度與隱私。
盧俊鋒表示,《基於openGauss安全的差分隱私醫療診斷輔助查詢系統》最大的創新是採用了國內外首創的差分隱私深度學習方法——DPDLDA,在機器學習效果、隱私保護、算法優化等方面實現了優化。具體而言其優勢包括:
機器學習效果好,能夠識別更多數據趨勢和模式,並且結果隨著時間越來越準確。
差分隱私保安全,在複雜攻擊下仍能保護隱私,能量化分析隱私泄露風險。
優化算法提效率,通過更好的好的收斂模型以及自適應調整實現加速訓練。
「方案將分層相關性傳播與梯度下降相結合,優化了傳統深度學習方法中的梯度剪裁方式,並在梯度中注入適當的噪聲。此外,該方案改進了傳統的梯度剪裁方法,將梯度分組,以最小化由於梯度失真引起的誤差。由於噪聲梯度可能導致下降方向不確定,該方案採用最小噪聲選擇算法,為每個梯度擾動選擇最佳步長。同時,該方案還將自適應優化器整合到梯度下降過程中。為了提高實用性,該方案還利用了先進的雙曲正弦-高斯噪聲添加機制,實現了截斷集中差分隱私。」 盧博士解釋到。這樣通過引入梯度擾動等方法,較好的實現了隱私預算的動態分配,並相應提高了模型精度。此前的方法則不能很好的兼顧兩者。
此次華科大團隊提出的基於openGauss的多模態差分隱私深度學習技術,可以廣泛應用於多個領域,幫助組織和個人在數據應用過程中實現高效率高準確性,並滿足隱私保護法規的合規要求。
技術領先:高度契合openGauss資料庫特性,實現更優效果
我們知道任何查詢系統都根植於資料庫,而涉及疾病類型、臨床表現等隱私數據的醫療輔助查詢系統還需要把隱私保護的能力作為重中之重,醫療查詢系統技術對資料庫的性能、安全、可靠都提出更高要求。
「第一,查詢響應迅速要實現秒級反應,將加密數據外包至資料庫,需要高速響應,100萬條數據的響應時間應在2秒左右;第二需要高穩定的計算服務,查詢系統需要提供穩定的服務,資料庫應具備可靠的備份維護功能;第三,密態數據強安全能力,作為隱私保護為重點的醫療系統,安全要求高,要求保護疾病類型、臨床表現等隱私數據。」 盧博士分享了醫療輔助查詢系統對於資料庫的基本需求。
此次《基於openGauss安全的差分隱私醫療診斷輔助查詢系統》不僅通過與openGauss資料庫的高度契合實現了高性能、高可靠等特性,而且針對差分隱私深度學習更大的數據量級, openGauss資料庫的加密存儲功能在源頭上實現了訓練數據的安全。盧博士談到。
openGauss資料庫不僅通過資源池化架構,實現計算、內存、存儲三層解耦,提升資源調度效率、處理性能以及創新敏捷性。同時還提供全密態保護技術徹底解決數據全生命周期隱私保護。傳統雲資料庫只能實現數據的傳輸與存儲態加密, openGauss作為全密態資料庫,提供豐富的資料庫安全能力,可實現數據從傳輸、計算到存儲的全程加密,從用戶認證、角色管理、對象訪問控制、動態脫敏、統一審計、全密態等多維度來守護系統和數據安全,解決資料庫雲上隱私泄露及第三方信任問題。
除了全密態資料庫提供的安全能力,在硬體層面,鯤鵬伺服器還提供訓練神經網路和硬體級別的安全保障,一方面優化數據加載、計算、交換等數據處理全流程,實現分析性能的大幅提升。另一方面,針對隱私數據云化部署安全問題,基於鯤鵬硬體能力,在TEE安全OS中,新增機密容器、機密虛機等特性,面向雲場景,打造金融風控、密碼機等涉及隱私數據計算的可信執行環境,使能數據可信流通,為開發者提供隱私數據安全應用的開發平台。
盧俊鋒表示,在未針對試驗數據集進行模型的優化前,模型的整體分類準確率和置信度較低。和樸素開源方法置信度僅52%到53%相比較,團隊藉助鯤鵬伺服器進行訓練優化後,置信度能夠達到99%,基本上非常可信。基於此,該方案基於密態數據可驗證查詢和數據安全防護技術,在保護數據隱私和數據安全的前提下,解決數據查詢和數據可信的問題,實現數據的安全共享和價值變現。
展望未來,基於openGauss的多模態差分隱私深度學習技術,可以廣泛應用於多個領域,比如醫療健康助力個性化醫療、疾病診斷和治療的數據安全;安全智能交通領域的圖像影片分析;社交網路領域的社交關係推斷、個性化推薦以及金融和隱私計算領域的敏感交易數據的金融計算,幫助組織和個人在數據應用過程中實現高效率高準確性,並滿足隱私保護法規的合規要求。