當前位置:工程項目OA系統(tǒng) > 領(lǐng)域應(yīng)用 > 醫(yī)院管理OA系統(tǒng) > 門診收費管理系統(tǒng)
信息提取技術(shù)在電子病歷中的應(yīng)用
引言
隨著信息技術(shù)的發(fā)展,電子病歷作為醫(yī)療信息化建設(shè)的重要內(nèi)容,在我國已經(jīng)得到了長足的發(fā)展,并逐漸成為一種記錄和管理患者信息的非常重要的現(xiàn)代化手段。與此同時,臨床決策支持系統(tǒng)(Clinical Decision Support System,CDSS)作為醫(yī)院信息系統(tǒng)向智能領(lǐng)域的延伸,也開始成為我國醫(yī)療信息化建設(shè)的新進程。電子病歷涵蓋了住院志、病程記錄、會診記錄、手術(shù)記錄以及各種醫(yī)技科室發(fā)出的超聲、內(nèi)鏡、心電檢查報告等多種文檔。但是,現(xiàn)有的結(jié)構(gòu)化錄入技術(shù)卻無法完全滿足臨床對于病歷信息的表示要求,如何在不影響臨床醫(yī)生以自然語言記錄信息的前提下,將非結(jié)構(gòu)化信息轉(zhuǎn)化為結(jié)構(gòu)化信息,是電子病歷發(fā)展過程中亟需解決的問題。此外,如果計算機可以自動準確獲取多種文檔中的重要臨床信息并服務(wù)于CDSS,將能提高醫(yī)院的醫(yī)療質(zhì)量和降低醫(yī)療成本。
信息提取(Information extraction)技術(shù)可以根據(jù)預(yù)先定義的模版,從文本中提取出特定的信息并形成結(jié)構(gòu)化數(shù)據(jù),以幫助人們對信息內(nèi)容進行整理和分析 J。應(yīng)用信息提取技術(shù),能夠很好解決上述一系列問題。因此,本文針對如何將抽取技術(shù)應(yīng)用于電子病歷進行了實踐研究。
總體概述
由于電子病歷種類繁多且內(nèi)容復(fù)雜,實現(xiàn)完整病歷的信息抽取非常困難。本文對病歷的部分內(nèi)容進行信息提取,以為完整電子病歷的信息提取累積經(jīng)驗。既往史中包含了大量患者既往的健康信息且用語相對規(guī)范,因此本文選擇它作為提取范圍,提取其中的病癥名、是否曾經(jīng)患有、出現(xiàn)時間、目前治愈狀況等目標信息。命名實體識別是信息提取的第一步,其方法主要有:基于規(guī)則的方法、基于詞典的方法和機器學(xué)習(xí)的方法 J。本文中的命名實體主要指的是病癥和時間,考慮到缺少大規(guī)模的中文病歷語料庫的支持,本文決定采用基于詞典和規(guī)則相結(jié)合的方法。
目前,很多生物醫(yī)學(xué)領(lǐng)域的信息提取系統(tǒng)都用到了淺層語法分析 。J,即僅通過詞匯或短語的順序、彼此間的關(guān)系進行提取,而不用理解文本的內(nèi)在含意。在淺層語法分析中,有限狀態(tài)自動機(FSA,以下簡稱自動機)是一種常用工具 ,用于實現(xiàn)短語識別和句子模式識別等功能。
以時間短語為例,通過圖3給出的狀態(tài)圖可以清楚地了解自動機的識別過程。其中,qi(0三i 3)表示狀態(tài),q。為初始狀態(tài),q 為結(jié)束狀態(tài),狀態(tài)間的連線表示匹配到不同詞類后的狀態(tài)轉(zhuǎn)移,每一條完整路徑表示自動機依據(jù)相應(yīng)的規(guī)則所完成的一次識別。如圖1所示,
當識別路徑為“q。一q 一q 一q ”時,表示自動機所識別的時間短語由“數(shù)詞(m)+其他數(shù)詞(m)或量詞(q)+時間量詞(timeunit)”等3部分組成,如“30(m)余(m)~(time unit)”。
經(jīng)典的信息提取系統(tǒng)FASTUS,應(yīng)用自動機取得了很好的提取效果。參照FASTUS系統(tǒng),本文自行開發(fā)了一個基于c 語言的簡易信息提取系統(tǒng)。信息提取整體過程如圖2所示,
大致經(jīng)歷了3個階段,分別從詞語、短語、句子3個層次進行處理,后一層以前一層的結(jié)果為基礎(chǔ),具體可以分為5個步驟,過程中使用了3層自動機:
(1)命名實體識別和標注經(jīng)歷了3個步驟:術(shù)語查找、分詞和實體標注。通過術(shù)語查找,可以實現(xiàn)病癥的初步識別。由于漢語的書寫特點,詞與詞之間缺少天然的分詞標記,文本需要先經(jīng)過分詞處理,為進一步識別奠定基礎(chǔ)。實體標注將依據(jù)實體識別規(guī)則實現(xiàn)實體的最終識別和標注,將借助底層自動機來完成。
(2)信息抽取經(jīng)歷2個步驟:獲取句型和句型匹配。在實體標注的基礎(chǔ)上,中層自動機用于識別命名實體,并提取其位置關(guān)系來獲取常見句型模式。對每一常見句型,本文通過人工分析句型特點,制定了相應(yīng)的提取規(guī)則。頂層自動機則用于將新提取的句型與已知句型進行匹配,以決定采用哪些提取規(guī)則。
本文系統(tǒng)中所用的病癥術(shù)語庫包含24000個術(shù)語,主要來源于ICD一10(The International Classification of Disease,10th Revision),在保留了原有的編碼規(guī)則的基礎(chǔ)上,通過合棄無關(guān)術(shù)語、拆分部分術(shù)語和擴充術(shù)語等三個步驟構(gòu)建。分詞則采用由中科院研發(fā)的ICTCLAS系統(tǒng),并進行了一定的詞典擴展,將新建術(shù)語庫中的術(shù)語納入其用戶詞典中。實體識別和信息提取規(guī)則通過樣本集的人工統(tǒng)計分析獲得。本文中使用的樣本集由《病歷書寫示范》 和30份病歷的既往史中所摘取的151個句子構(gòu)成,共可劃分為339個子句。
■-信息提取詳細過程
2.1 實體初步識別
實體初步識別采用術(shù)語庫查找來實現(xiàn)病癥的識別,但是機械式的查找容易造成分割歧義。為此,本文主要借鑒了文獻 中的相關(guān)方法進行歧義消除。整個初步識別過程如下:首先,將每個句子劃分為以逗號、分號、句號等標點結(jié)束的子句;然后,對每個子句采用高精度的反向最大匹配算法查找病癥術(shù)語;最后,對包含病癥的子句進行分詞和歧義消除處理,而對不包含醫(yī)學(xué)術(shù)語的子句只進行分詞處理。如圖3所示,
放棄訶性為動詞的“感染”,將錯誤劃分的“無意識/障礙”調(diào)整為“無/意識障礙”;放棄從“牛痘苗”中錯誤提取到的術(shù)語“牛痘”。
2.2 實體最終識別
如典型肺炎、急性菌痢等病癥,通過初步識別只能識別出劃線部分。同時,ICTCALS雖然能夠識別部分時間,卻無法識別5歲、l0余年等類型的時間短語。為了更精確地進行實體識別,并引入了disease和time~unit這2種語義標簽,用于標識病癥和時間量詞(年、月等),對初步識別的結(jié)果進行了語義標注。依據(jù)樣本集統(tǒng)計結(jié)果,制定了5條實體識別規(guī)則,其概略表述如下:
RI disease一(tlblmtalnlzlh) disease
R2 disease— disease k?disease
R3 t— m(mlq)?time—unit
R4 t— a?t(f]m)?
R5 t— t t
其中m、q、t等單個英文字符表示詞性,“()”表示分組,“f”表示析取,“ ”表示出現(xiàn)0至多次,“?”表示出現(xiàn)0至1次。以規(guī)則3為例,自動機依據(jù)該規(guī)則,可以將符合符號“一”右邊部分的文本識別為一個時間短語(t),具體識別過程可以參見前文中的圖1。
為了便于獲取統(tǒng)一的句型,建立了3類語義詞集,加上病癥和時間,句型將由5部分組成。不同句子成分采用不同的語義標識,標注格式統(tǒng)一為“(標識信息內(nèi)容)”,其中:“DI”表示病癥;“TP”表示時間,“VM”表示第一類語義詞,用于標識病癥的開始(患、發(fā)現(xiàn)等);“DS”表示第二類語義詞,表示病癥治愈狀況(治愈、好轉(zhuǎn)等);“NEG”為第三類語義詞,表示否定意義(否、非等)。依據(jù)規(guī)則和語義詞集,利用底層自動機對樣本集中的句子進行自動識別和標注,典型標注結(jié)果如下所示:
例1:{TP去冬12月}{VM 患}{DI典型麻疹}、(DI肺炎},,w
例2:{TP 5周}{DS治愈}。/w
例3:{NEG無}{DI血吸蟲病}史/ng。/w
2.3信息提取
本文中,具體目標信息的類型判斷和提取由中層自動機來完成。如“{TP去冬l2月)”,中層自動機不僅能識別其句子成分為時間短語(TP),還能提取其中的時間信息(去冬12月)。為獲取一致的句型模式,對樣本集中的339個子句利用中層自動機自動提取其句子結(jié)構(gòu),并將頓號、和等可以表示并列的詞或標點統(tǒng)一用“and”代替。最終,獲得了表1中5類含有目標信息的常見句型模式,其中模式1—4為含有病癥名的句型,模式5為含有治愈狀況的句型。符號使用說明參見3.2。
從句型上看,多個病癥并列的現(xiàn)象普遍存在,它們除了名稱和代碼不同,其余的信息均相同,可以統(tǒng)一處理。因此,本文以句號結(jié)尾的自然句為信息提取的獨立單元,當句子中出現(xiàn)分號時,則以分號劃分的分句作為信息提取的獨立單元。通過對各個句型模式本身的特以及所處的上下文環(huán)境的分析,本文針對每一句型模式設(shè)置了不同的提取規(guī)則。
最后,對每一獨立信息提取單元,根據(jù)提取到的句子結(jié)構(gòu),利用頂層自動機進行句型識別和分類處理,再利用中層自動機依據(jù)相應(yīng)規(guī)則完成目標信息提取。
■ 實驗結(jié)果與數(shù)據(jù)分析
由于既往史中會出現(xiàn)大量重復(fù)的描述語句,因此,本文隨機提取700份來自醫(yī)院各個科室病歷,剔除其中完全相同的語句,最后獲得374條語句,共1031子句,作為測試樣本進行信息提取。實驗將每一病癥作為信息提取的單元,共提取~146S個信息單元,其中有100個單元提取到了完整的信息,314個單元提取到了時間信息,108個單元提取到了治愈狀況信息,各項實驗結(jié)果數(shù)據(jù)如下,其中F=2P·R/(P+R):
實驗結(jié)果表明,對于句子結(jié)構(gòu)相對簡單的自由文本,采用淺層分析的技術(shù),在句型匹配的基礎(chǔ)上,依據(jù)少量的提取規(guī)則就能實現(xiàn)信息提取。本文依據(jù)句子結(jié)構(gòu)和目標信息的相對位置來實現(xiàn)信息提取,并取得了較為滿意的提取結(jié)果。但是,從“治愈狀況”較低的召回率上也可以看出,僅依靠淺層句法分析并不能獲得文本中的全部信息。如“血壓經(jīng)間斷服藥后得到控制”,表示患者患有高血壓但未完全治愈,超過了一般淺層分析能處理的范圍,需要經(jīng)過更深層的語義分析才能理解。因此,對于描述復(fù)雜、缺乏規(guī)律的句子,僅通過幾個關(guān)鍵描述詞,信息提取的效果并不理想,需要進一步的句法分忻才能進行識別和提取。
本文對病癥名和時間的提取結(jié)果進行了分析,發(fā)現(xiàn)錯誤主要是由標點錯誤、句法分析不足、語義歧義和用語本身的錯誤等幾個因素造成的,如何加強句法分析和歧義消除將是本課題今后研究的方向。
參考文獻
[1] Doan A,Naughton JF,Ramakri shnan R,et a1.Information extraction challenges in managing unstructured data[J].ACM SIGMOD Record,2008,37(4):14—20
[2]Erk K,Pad6 S.SHALMANESER—A Toolchain For Shallow Semantic Parsing[A]In Proceedings of LREC[C],2006,Genoa, Italy.
[3]Mykowiecka A,Marciniak M,et al Rule—based information extraction from patients’clinical data[J]Journal of Biomedical Informatics.2009.42:923—936
[4]Chang CH,Kayed M,et al A Su rvey of Web Information Extraction System[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(10):141 1-1428.
[5] 肖舂,周建龍.生物醫(yī)學(xué)領(lǐng)域中的文本信息抽取技術(shù)與系統(tǒng)綜述[Jll計算機應(yīng)用研究,2007,24(9):1-6.
[6]霍仲厚若病歷書寫示范[M].江蘇:江蘇科學(xué)技術(shù) 版社,2004.
[7]李吳昱,李瑩,等中文病歷文檔術(shù)語提取和否定檢出方法[J1l中國生物醫(yī)學(xué)工程學(xué)報,2008,27(5):715-720.
- 1衛(wèi)生信息化建設(shè)亟待統(tǒng)一標準
- 2電子病歷是醫(yī)院檔案發(fā)展的趨勢
- 3電子病歷及其應(yīng)用概述
- 4門診收費管理系統(tǒng)現(xiàn)狀
- 5醫(yī)院信息管理系統(tǒng)分析
- 6電子病歷成為醫(yī)改重點
- 7電子病歷的三個法律問題探討
- 8電子病歷規(guī)范使用的體會
- 9醫(yī)院管理在新醫(yī)改下的信息化建設(shè)
- 10電子病歷系統(tǒng)臨床文檔的語義表示的建構(gòu)研究
- 11醫(yī)院電子病歷系統(tǒng)的設(shè)計
- 12醫(yī)囑套餐在門診收費管理系統(tǒng)中醫(yī)生工作站的應(yīng)用
- 13無紙化電子病歷存儲模式在門診收費管理系統(tǒng)化中的研究與實踐
- 14找個售后服務(wù)不錯的門診收費管理軟件?
- 15面向醫(yī)療信息的數(shù)據(jù)隱私保護技術(shù)
- 16我院電子病歷系統(tǒng)功能與應(yīng)用體會
- 17淺析數(shù)據(jù)挖掘技術(shù)在電子病歷中的應(yīng)用
- 182010年10月公司成功中標五原縣婦幼保健院HIS項目
- 19惠東縣城區(qū)學(xué)齡前兒童HBsAg攜帶率調(diào)查分析
- 20Full-PACS建設(shè)的意義和特色
- 21基于電子病歷的臨床醫(yī)療質(zhì)量評價
- 22電子病歷檔案系統(tǒng)與互聯(lián)網(wǎng)
- 23電子體溫單與手繪體溫單的優(yōu)勢比較
- 24護理電子病歷的設(shè)計和質(zhì)量控制
- 25基于電子病歷的醫(yī)療質(zhì)量監(jiān)測與評估
- 26臨床路徑在電子病歷系統(tǒng)中的實現(xiàn)
- 27對話衛(wèi)生部權(quán)威人士:衛(wèi)生信息化促進衛(wèi)生改革
- 28構(gòu)建院前急救電子病歷的幾點思考
- 29電子病歷概述
- 30基于片段和標簽的口腔專科電子病歷模板的設(shè)計與應(yīng)用
成都公司:成都市成華區(qū)建設(shè)南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓