掃一掃下載界面新聞APP

2023醫(yī)療大數據白皮書：作為“生產要素”的數據何以流通？

只有將醫(yī)療大數據的被動應用轉變?yōu)橹鲃庸芾?，才談得上用好醫(yī)療大數據，才有幾乎觸及數據的“流通”。

動脈網 ·

圖片來源：界面新聞匡達

文|動脈網

千禧年后的第二個十年，移動醫(yī)療、人工智能等前沿技術的發(fā)展喚起醫(yī)療數據的需求。作為算法、算力、數據三要素中最常見但又最難獲取的要素，醫(yī)療數據彼時仍以碎片化、非標準化的形態(tài)分散于醫(yī)院各個系統(tǒng)中。為了尋找智能模型所需的養(yǎng)料，大量科技醫(yī)療創(chuàng)業(yè)公司找到三級醫(yī)院進行合作，在幫助醫(yī)院進行數據治理的同時，打造智慧化的臨床應用。

醫(yī)院科室的參與、政策對于信息化建設的強制要求，合力促使醫(yī)院圍繞互聯(lián)互通、智慧醫(yī)院等方向開啟規(guī)?；ㄔO。不少醫(yī)院開始打造醫(yī)院大數據中心、科研級大數據平臺，完成了醫(yī)療大數據基礎設施的構造，也與企業(yè)合作開發(fā)了不少智慧化的應用。

但在2019年中美貿易爭端開啟后，包含個人私密信息醫(yī)療數據成為關注重點之一。由于對此類數據進行治理、集成、應用存在一定泄露風險，醫(yī)院與企業(yè)的合作目的開始轉變。

為避免政策風險帶來的不確定性，不少醫(yī)院期望大數據及其研究結果以醫(yī)院范圍為界限展開，使得醫(yī)療大數據的研究重心轉向醫(yī)院科研需求。此趨勢下，醫(yī)療大數據產業(yè)轉化一定程度減少，醫(yī)療大數據行業(yè)發(fā)展整體放慢。

不過，政治因素并非鉗制醫(yī)療大數據發(fā)展的唯一因素，更需關注的是該類建設投資回報及參與度問題。

對于絕大多數而言醫(yī)院而言，院內外規(guī)范化的IT建設是一項難以計量回報的投資，在缺乏合適的工具估算大數據建設的產出時，醫(yī)院對于相關投資仍然持有保守態(tài)度。

此外，要讓該項建設發(fā)揮價值，醫(yī)院動用資金支持僅是一部分，更重要的是醫(yī)院深入了解醫(yī)療大數據建設內容，將系統(tǒng)與業(yè)務有效融合，才能構造行之有效的大數據體系。

從目前來看，院內已存在各類標準推動醫(yī)療數據的互通互認、治理應用，但還需完整做好每一類場景全流程數據的收集、清洗、歸納、存儲都一系列步驟，形成多模態(tài)、跨流程、可服務于應用的大數據，真正將醫(yī)療數據沉淀下來。但就目前而言，醫(yī)院缺乏積極性，去實踐全流程、高參與度的數據治理。

將數據的“生產要素”屬性應用起來或是上述種種問題的解決之道。畢竟，只有將醫(yī)療大數據的被動應用轉變?yōu)橹鲃庸芾恚耪劦蒙嫌煤冕t(yī)療大數據，才有幾乎觸及數據的“流通”。

挖掘數據的“生產要素”價值：政策技術雙重助力

自2020年4月，中共中央、國務院印發(fā)《關于構建更加完善的要素市場化配置體制機制的意見》，將“數據”列為勞動力、土地、資本等之外的第五大生產要素后，幾乎每隔一段時間都會新增大數據的利好政策，推動這一行業(yè)的發(fā)展。

具體而言，2021年11月，《“十四五”大數據產業(yè)發(fā)展規(guī)劃》提出了一個精確的總體目標，要求“到2025年我國大數據產業(yè)測算規(guī)模突破3萬億元，年均復合增長率保持25%左右，創(chuàng)新力強、附加值高、自主可控的現代化大數據產業(yè)體系基本形成?！?/p>

2022年12月，《中共中央國務院關于構建數據基礎制度更好發(fā)揮數據要素作用的意見》（后簡稱：數據二十條）對外發(fā)布則以構建基礎制度為目標，從數據產權、流通交易、收益分配、安全治理等四個方面，對制定數據基礎制度進行了全面部署，最終構建公平與效率相統(tǒng)一的數據要素按貢獻參與分配的制度。

2023年3月，國家數據局組建完畢，中央網絡安全和信息化委員會辦公室、國家發(fā)展和改革委員會共同管理，兩大機構將在后續(xù)協(xié)調推進數據基礎制度建設，統(tǒng)籌數據資源整合共享和開發(fā)利用，統(tǒng)籌推進數字中國、數字經濟、數字社會規(guī)劃和建設等。

圖片來源：蛋殼研究院

技術方面的迭代同樣推動人們重新審視數據這一生產要素的價值。2022年末，大語言模型（LLM）ChatGPT的火熱帶動人們重新審視人工智能的價值，并聚焦于背后支撐應用的技術生成式AI（Generative AI）。2023年開始，不少醫(yī)療IT公司、醫(yī)療AI公司、互聯(lián)網醫(yī)療公司均已開發(fā)出自己的大語言模型，并嘗試在醫(yī)院場景之中開發(fā)各項新式AI應用。

拆解這一新興人工智能仍是算法、算力、數據、知識四要素，但對于國內企業(yè)而言，算法部分均用的開源模型，算力可以根據需求購置GPU實現，知識可以通過向權威知識庫購買或達成戰(zhàn)略合作得到，唯獨數據需要企業(yè)與醫(yī)院達成合作，在脫敏、不出院的情況下訓練模型。

政策與技術雙向驅動，醫(yī)療大數據產業(yè)再度火熱。如今，更多醫(yī)院開始參與大數據基礎及應用建設，大企業(yè)們也嗅到風向，廣泛參與其中，為產業(yè)注入新的活力。

新一代醫(yī)院數據中心，拉開千億市場序幕

要將數據有效的利用起來，第一步總是收集數據。伴隨信息技術和網絡技術的跨越式發(fā)展，現代醫(yī)院的運營特征表現為醫(yī)療業(yè)務的智能化與應用部署的敏捷化，使得醫(yī)院業(yè)務產生的信息朝著復雜化、專業(yè)化、海量化的方向發(fā)展，并對各系統(tǒng)之間的互聯(lián)互通提出更高層級的要求。

此趨勢下，圍繞網絡帶寬、服務器性能、交換機處理能力等設備運行特征建設數據中心機房的思路無法應對新型數據結構下涌現的數據安全保障、線上業(yè)務支撐、數據資產管理等需求，亟需引入新的IT架構來應對新的業(yè)務對計算資源、存儲資源、網絡資源的新要求。

因此，部分醫(yī)院開始轉變信息化建設思路，借助云技術打造新一代醫(yī)院數據中心，綜合利用各類數據服務臨床、決策和科研過程，提高醫(yī)院管理的科學化、規(guī)范化、精細化水平。

新一代醫(yī)院數據中心架構（數據來源：蛋殼研究院、《新一代醫(yī)院數據中心建設指導》）

傳統(tǒng)大數據中心分為兩類形式。一類是以業(yè)務支撐為主、整合電子病歷的臨床數據中心（CDR），其作用是支撐日常的醫(yī)療活動，收集與呈現醫(yī)療過程中的數據，繪制常規(guī)報表統(tǒng)計等。另一類以管理和科研為主的大數據中心，其作用是面向臨床研究、醫(yī)院管理與智能產品開發(fā)，滿足科研、管理活動中的數據批量處理的挖掘與分析需求。

目前國內大部分全院級CDR完成了醫(yī)院各業(yè)務數據的物理匯聚，但數據質量仍處于原始狀態(tài)，對數據的深層架構與邏輯關系尚未進行梳理，針對現有CDR開展臨床相關的數據分析挖掘仍具有極大困難。

此外，由于不同科研數據庫一般采用自定義的數據模型，在建立多中心數據池、數據共享或數據合并時需要花費大量時間和資源進行數據映射和重新編碼，一旦出錯很容易導致計算機數據調用、分析過程和結果出現混亂。

要解決傳統(tǒng)大數據中心存在的問題，新一代大數據中心應具備以下能力。

1、滿足醫(yī)院創(chuàng)新業(yè)務需求。提供多種大數據應用開發(fā)工具并支撐大數據應用部署，例如利用NLP從海量電子病歷數據中提取知識，輔助臨床科研；利用深度學習從海量的醫(yī)學影像中訓練人工智能模型，輔助醫(yī)生臨床診斷。

2、滿足醫(yī)院管理發(fā)展的需求。支撐人工智能應用為醫(yī)院運營管理提供更深的洞察和更敏捷的反應；支撐實時流計算，能夠應用大數據分析技術并將分析結果實時反饋到臨床業(yè)務；支撐邊緣計算與物聯(lián)網技術實現智慧后勤。

3、滿足醫(yī)院智慧應用配置需求。支持搭建安全、有彈性、可擴展的對外服務平臺；支撐區(qū)塊鏈等創(chuàng)新技術解決數據共享、流通、歸集和安全問題。

4、滿足跨部門業(yè)務協(xié)同需求。支撐云網融合技術，能夠在保證內外網間數據交換的安全性的前提下以打通院內系統(tǒng)、外部系統(tǒng)及云上系統(tǒng)，以實現醫(yī)院業(yè)務的連續(xù)性。

5、滿足數據治理需求?？商峁┑娜謹祿招枰采w數據標準管理、基礎數據管理、數據采集、數據匯聚、數據深度加工、數據資產管理、數據質量管理、數據安全管理等對數據的全生命周期治理服務。

6、滿足數據服務需求。支撐醫(yī)院內部實現系統(tǒng)互聯(lián)互通和數據對接共享的需要；醫(yī)院提升海量數據資源質量的需要，數據驅動醫(yī)院進行科學決策的需要，面對數據安全風險的需要。

當然，除了建設新一代醫(yī)院數據中心外，醫(yī)院也需補全影像數據中心、臨床科研數據庫等基礎設施的建設，進一步做好數據的治理歸納，已在后續(xù)的應用之中更好地發(fā)揮價值。

大語言模型，數據治理的新動力？

盡管NLP的發(fā)展有力推進了智慧醫(yī)院的建設，但落在具體場景中，如自動書寫病案、智能問診、智能隨訪等，該技術仍然沒有脫離關鍵詞映射數據庫的邏輯，沒有能夠真正做到智慧智能。

大語言模型（LLM）的出現能夠一定程度解決現有技術面臨的智能程度不夠問題。在分析文本類信息時，LLM不僅能夠從大量給定信息中找到任務需要的關鍵項，還能對未知信息進行預設，綜合上下文做出推理。

相較于千億級參數的通用大模型，醫(yī)療中文本類大模型的參數可控制于100萬以內，包含文本與多模態(tài)影像的大模型參數可控制于500萬內，因而非頭部互聯(lián)網公司也能參與醫(yī)療LLM的建設。

醫(yī)療大模型企業(yè)產業(yè)圖譜（截至2023年9月20日，數據來源：蛋殼研究院）

不過，從概念到落地，現階段的醫(yī)療LLM仍需解決兩個問題。

一是部署。當企業(yè)將大模型部署至醫(yī)院時，需要醫(yī)院購置相應GPU驅動模型運行。通常而言，服務一個科室的應用需要的GPU成本在數千元左右，但要負擔全院需求，醫(yī)院可能劃分百萬元級的成本購置芯片，因此，要推動LLM應用大規(guī)模落地，一方面需要推動醫(yī)院主動部署LLM運行環(huán)境，另一方面需要企業(yè)方優(yōu)化模型，盡可能降低醫(yī)院在基礎設施方面付出的成本。

二是應用。目前基于LLM構建的智能應用仍然沒有脫離傳統(tǒng)醫(yī)療IT應用的范疇，如病案質控、智能問診等，企業(yè)需要圍繞醫(yī)院需求構造“殺手級”應用，喚起醫(yī)院購置的LLM的需求，進而實現LLM 的規(guī)模落地。

構建LLM需要的成本不菲，且需大量醫(yī)療數據，因而競爭仍存在于頭部醫(yī)療IT企業(yè)與互聯(lián)網企業(yè)間。由于LLM應用需置于醫(yī)療信息系統(tǒng)中，因而非醫(yī)療IT公司只能使用外掛的方式進入IT環(huán)境，操作流暢性受限，相較之下，擁有醫(yī)療信息管理系統(tǒng)的醫(yī)療IT公司占有優(yōu)勢。同時，LLM對于醫(yī)院的架構要求嚴苛，能夠支持AI應用的智能架構將比傳統(tǒng)EA企業(yè)架構更好展現LLM的能力界限。

此外，現有的垂直醫(yī)療大模型幾乎都是基于臨床外的醫(yī)療數據培育而來。伴隨行業(yè)競爭的不斷加劇，臨床數據這一要素或將重新回到LLM角逐的核心位置，進一步推動數據治理的進行。

應用級醫(yī)療大數據的交易可能

那么，從“生產要素”到“資產”，醫(yī)療數據還有多遠？

與勞動力、資本等生產要素相似，醫(yī)療數據的價值體現于應用與流通過程。但無論是在數據平臺間應用流轉，還是未來他通過交易所變更歸屬主體，只要存在流動，必然會數據泄露、數據濫用等問題。因此，只有保障醫(yī)療數據流動的安全，才能保障醫(yī)療大數據產業(yè)的良性發(fā)展。

此外，一個穩(wěn)定數據交易市場是保障數據流通效率的基礎所在。因而必須構建數據的需求方和數據的擁有方的有效對接機制，形成穩(wěn)定的上下游的關系，并為數據所有者提供獲得專利權和著作權有國家知識產權保護等法律保護。

雖然國內已有不少大數據交易所開始運營，但數據要素流通市場整體形式仍較為單一，通過交易所掛牌數據較少，從量和質上都無法滿足數據市場的需求。相較之下，大量的場外數據交易市場活躍，但缺乏有效監(jiān)管和安全保障。

醫(yī)療方面，已有不少交易所將為“醫(yī)療衛(wèi)生”數據設置交易品類，但絕大部分交易所該品類下并無供應商品，僅貴州大數據交易所上架了一款“兒童構音障礙早篩語音數據”的產品，售價25萬元，僅交易兩筆。

要實現從“生產要素”到“資產”的轉變，數據交易市場必須建立以政府為主導、市場化的數據要素交易機構和服務平臺組成的體系。數據供應方進行有效的數據歸集、加工；外部機構搭建平臺、輔助標準、提供安全；交易中心提供供需對接服務，實現數據升值、數據變現；監(jiān)管機構保障市場監(jiān)管和質控，營造良好的流通環(huán)境。

理想狀態(tài)下的數據要素平臺閉環(huán)（數據來源：蛋殼研究院）

總的來說，我國數據要素流通市場仍處于發(fā)展的初級階段，在數據交易需求持續(xù)高漲的趨勢下，一方面需要國家主導完善數據要素服務相關制度，引導培育數據要素交易市場，另一方面也需培養(yǎng)更多供應商豐富數據供應體系，并加大數據交易所傳播力度，最終實現在有效市場支撐下的數據供需匹配，讓各類數據要素高效安全地流通起來。

本文為轉載內容，授權事宜請聯(lián)系原著作權人。

醫(yī)療大數據