|山東率先完成省內首宗交易
山東第一醫科大學第一附屬醫院近期向山東山科智信科技出售一批臨床數據集,成交價為三萬元人民幣(約四千四百美元)。該數據集收錄逾千名肝衰竭患者的去識別化臨床病歷,涵蓋需要進行移植評估的病例。這宗交易創下山東省醫療數據交易的先例。買方計劃以這批數據開發人工智能輔助肝病診斷模型。
在人工智能醫療時代,醫院積累的真實世界健康數據已成核心原材料。業界人士認為,這類專有資訊的稀缺程度超越演算法或算力。患者病歷、化驗結果、電腦斷層掃描及磁力共振影像,過去在患者完成治療後長期閒置。如今,這批資料已成為各方爭相挖掘的數字金礦。
|政策驅動全國交易浪潮
大陸數據局於2024年聯同十六個政府部門頒布三年行動計劃。計劃目標是釋放十二個行業的數據經濟價值,醫療衛生領域列入重點範疇。同年,北京錄得首宗公立醫院數據交易。首都醫科大學宣武醫院在北京國際大數據交易所出售二千五百五十條頸動脈支架手術病歷,用以支持國產醫療器材的研發工作。
今年三月二十四日,數據局局長劉烈宏在記者會上表示,政府將持續培育市場共識,推動業界為高質量數據付費。劉烈宏表示,當局將向業界施壓,要求頂級數據集在交易所掛牌及進行交易。部分地方政府更設定硬性指標。溫州市今年一月規定,年底前須完成至少四十五個醫療數據產品掛牌及十宗交易。
|各省交易所掛牌數量激增
全國各地醫療數據交易活動迅速增加。今年一月,閩清縣總醫院在北京國際大數據交易所完成縣級首宗交易,出售涵蓋神經科、心臟科及老年科的專科數據庫,估值逾四十五萬元人民幣。四月十六日,西安優軍醫療信息公司在貴陽大數據交易所掛牌逾七十個數據集。數據來源為西安一家醫院的真實臨床場景,聚焦肺癌及肝癌等高發腫瘤。廣州數據交易所亦同步掛牌來自北京京西腫瘤醫院的腫瘤影像產品。
深圳數據交易所醫療板塊同樣積極。深圳市人民醫院推出一個高質量老年病數據集,涵蓋2015年至今的去識別化人口統計資料、診症紀錄、影像及化驗結果。相關描述性文字已由人工智能預先解析為高度結構化字段。深圳市婦幼保健院則掛牌兩項產品。一是2010年至2012年間數十萬名孕婦的標準產前超聲波影像及對應素描圖。二是2018年至2023年間妊娠高血壓患者的匿名化臨床病歷。
|數據質量成最大障礙
這些數據集的主要買家包括人工智能企業、創新藥企、醫療器材廠商及學術研究機構。應用範圍涵蓋人工智能診斷模型訓練至新藥研發。監管要求規定,所有數據在上市前須完成嚴格去識別化處理。業界確認,買方無法透過數據追溯至個別患者。
然而,去識別化僅是第一道關卡。業界專家指出,醫院歷年積累的病歷往往質素不佳,須經嚴格的數據治理工序,包括清洗與標注,才能用於訓練大型語言模型。這造成市場矛盾:醫院需投入大量時間和資金將數據提升至可交易標準。但科技公司認為未經整理的原始檔案毫無價值,令潛在交易陷入停滯。另外之前醫院多次資料外洩也令民眾擔心,例如香港已故藝人周海媚在北京病逝後,其病歷及眾多私人資料曾出現在微博。