當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 領(lǐng)域應(yīng)用 > 醫(yī)院管理OA系統(tǒng) > 門(mén)診收費(fèi)管理系統(tǒng)
信息提取技術(shù)在電子病歷中的應(yīng)用
申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114
引言
隨著信息技術(shù)的發(fā)展,電子病歷作為醫(yī)療信息化建設(shè)的重要內(nèi)容,在我國(guó)已經(jīng)得到了長(zhǎng)足的發(fā)展,并逐漸成為一種記錄和管理患者信息的非常重要的現(xiàn)代化手段。與此同時(shí),臨床決策支持系統(tǒng)(Clinical Decision Support System,CDSS)作為醫(yī)院信息系統(tǒng)向智能領(lǐng)域的延伸,也開(kāi)始成為我國(guó)醫(yī)療信息化建設(shè)的新進(jìn)程。電子病歷涵蓋了住院志、病程記錄、會(huì)診記錄、手術(shù)記錄以及各種醫(yī)技科室發(fā)出的超聲、內(nèi)鏡、心電檢查報(bào)告等多種文檔。但是,現(xiàn)有的結(jié)構(gòu)化錄入技術(shù)卻無(wú)法完全滿足臨床對(duì)于病歷信息的表示要求,如何在不影響臨床醫(yī)生以自然語(yǔ)言記錄信息的前提下,將非結(jié)構(gòu)化信息轉(zhuǎn)化為結(jié)構(gòu)化信息,是電子病歷發(fā)展過(guò)程中亟需解決的問(wèn)題。此外,如果計(jì)算機(jī)可以自動(dòng)準(zhǔn)確獲取多種文檔中的重要臨床信息并服務(wù)于CDSS,將能提高醫(yī)院的醫(yī)療質(zhì)量和降低醫(yī)療成本。
信息提取(Information extraction)技術(shù)可以根據(jù)預(yù)先定義的模版,從文本中提取出特定的信息并形成結(jié)構(gòu)化數(shù)據(jù),以幫助人們對(duì)信息內(nèi)容進(jìn)行整理和分析 J。應(yīng)用信息提取技術(shù),能夠很好解決上述一系列問(wèn)題。因此,本文針對(duì)如何將抽取技術(shù)應(yīng)用于電子病歷進(jìn)行了實(shí)踐研究。
總體概述
由于電子病歷種類繁多且內(nèi)容復(fù)雜,實(shí)現(xiàn)完整病歷的信息抽取非常困難。本文對(duì)病歷的部分內(nèi)容進(jìn)行信息提取,以為完整電子病歷的信息提取累積經(jīng)驗(yàn)。既往史中包含了大量患者既往的健康信息且用語(yǔ)相對(duì)規(guī)范,因此本文選擇它作為提取范圍,提取其中的病癥名、是否曾經(jīng)患有、出現(xiàn)時(shí)間、目前治愈狀況等目標(biāo)信息。命名實(shí)體識(shí)別是信息提取的第一步,其方法主要有:基于規(guī)則的方法、基于詞典的方法和機(jī)器學(xué)習(xí)的方法 J。本文中的命名實(shí)體主要指的是病癥和時(shí)間,考慮到缺少大規(guī)模的中文病歷語(yǔ)料庫(kù)的支持,本文決定采用基于詞典和規(guī)則相結(jié)合的方法。
目前,很多生物醫(yī)學(xué)領(lǐng)域的信息提取系統(tǒng)都用到了淺層語(yǔ)法分析 。J,即僅通過(guò)詞匯或短語(yǔ)的順序、彼此間的關(guān)系進(jìn)行提取,而不用理解文本的內(nèi)在含意。在淺層語(yǔ)法分析中,有限狀態(tài)自動(dòng)機(jī)(FSA,以下簡(jiǎn)稱自動(dòng)機(jī))是一種常用工具 ,用于實(shí)現(xiàn)短語(yǔ)識(shí)別和句子模式識(shí)別等功能。
以時(shí)間短語(yǔ)為例,通過(guò)圖3給出的狀態(tài)圖可以清楚地了解自動(dòng)機(jī)的識(shí)別過(guò)程。其中,qi(0三i 3)表示狀態(tài),q。為初始狀態(tài),q 為結(jié)束狀態(tài),狀態(tài)間的連線表示匹配到不同詞類后的狀態(tài)轉(zhuǎn)移,每一條完整路徑表示自動(dòng)機(jī)依據(jù)相應(yīng)的規(guī)則所完成的一次識(shí)別。如圖1所示,
當(dāng)識(shí)別路徑為“q。一q 一q 一q ”時(shí),表示自動(dòng)機(jī)所識(shí)別的時(shí)間短語(yǔ)由“數(shù)詞(m)+其他數(shù)詞(m)或量詞(q)+時(shí)間量詞(timeunit)”等3部分組成,如“30(m)余(m)~(time unit)”。
經(jīng)典的信息提取系統(tǒng)FASTUS,應(yīng)用自動(dòng)機(jī)取得了很好的提取效果。參照FASTUS系統(tǒng),本文自行開(kāi)發(fā)了一個(gè)基于c 語(yǔ)言的簡(jiǎn)易信息提取系統(tǒng)。信息提取整體過(guò)程如圖2所示,
大致經(jīng)歷了3個(gè)階段,分別從詞語(yǔ)、短語(yǔ)、句子3個(gè)層次進(jìn)行處理,后一層以前一層的結(jié)果為基礎(chǔ),具體可以分為5個(gè)步驟,過(guò)程中使用了3層自動(dòng)機(jī):
(1)命名實(shí)體識(shí)別和標(biāo)注經(jīng)歷了3個(gè)步驟:術(shù)語(yǔ)查找、分詞和實(shí)體標(biāo)注。通過(guò)術(shù)語(yǔ)查找,可以實(shí)現(xiàn)病癥的初步識(shí)別。由于漢語(yǔ)的書(shū)寫(xiě)特點(diǎn),詞與詞之間缺少天然的分詞標(biāo)記,文本需要先經(jīng)過(guò)分詞處理,為進(jìn)一步識(shí)別奠定基礎(chǔ)。實(shí)體標(biāo)注將依據(jù)實(shí)體識(shí)別規(guī)則實(shí)現(xiàn)實(shí)體的最終識(shí)別和標(biāo)注,將借助底層自動(dòng)機(jī)來(lái)完成。
(2)信息抽取經(jīng)歷2個(gè)步驟:獲取句型和句型匹配。在實(shí)體標(biāo)注的基礎(chǔ)上,中層自動(dòng)機(jī)用于識(shí)別命名實(shí)體,并提取其位置關(guān)系來(lái)獲取常見(jiàn)句型模式。對(duì)每一常見(jiàn)句型,本文通過(guò)人工分析句型特點(diǎn),制定了相應(yīng)的提取規(guī)則。頂層自動(dòng)機(jī)則用于將新提取的句型與已知句型進(jìn)行匹配,以決定采用哪些提取規(guī)則。
本文系統(tǒng)中所用的病癥術(shù)語(yǔ)庫(kù)包含24000個(gè)術(shù)語(yǔ),主要來(lái)源于ICD一10(The International Classification of Disease,10th Revision),在保留了原有的編碼規(guī)則的基礎(chǔ)上,通過(guò)合棄無(wú)關(guān)術(shù)語(yǔ)、拆分部分術(shù)語(yǔ)和擴(kuò)充術(shù)語(yǔ)等三個(gè)步驟構(gòu)建。分詞則采用由中科院研發(fā)的ICTCLAS系統(tǒng),并進(jìn)行了一定的詞典擴(kuò)展,將新建術(shù)語(yǔ)庫(kù)中的術(shù)語(yǔ)納入其用戶詞典中。實(shí)體識(shí)別和信息提取規(guī)則通過(guò)樣本集的人工統(tǒng)計(jì)分析獲得。本文中使用的樣本集由《病歷書(shū)寫(xiě)示范》 和30份病歷的既往史中所摘取的151個(gè)句子構(gòu)成,共可劃分為339個(gè)子句。
■-信息提取詳細(xì)過(guò)程
2.1 實(shí)體初步識(shí)別
實(shí)體初步識(shí)別采用術(shù)語(yǔ)庫(kù)查找來(lái)實(shí)現(xiàn)病癥的識(shí)別,但是機(jī)械式的查找容易造成分割歧義。為此,本文主要借鑒了文獻(xiàn) 中的相關(guān)方法進(jìn)行歧義消除。整個(gè)初步識(shí)別過(guò)程如下:首先,將每個(gè)句子劃分為以逗號(hào)、分號(hào)、句號(hào)等標(biāo)點(diǎn)結(jié)束的子句;然后,對(duì)每個(gè)子句采用高精度的反向最大匹配算法查找病癥術(shù)語(yǔ);最后,對(duì)包含病癥的子句進(jìn)行分詞和歧義消除處理,而對(duì)不包含醫(yī)學(xué)術(shù)語(yǔ)的子句只進(jìn)行分詞處理。如圖3所示,
放棄訶性為動(dòng)詞的“感染”,將錯(cuò)誤劃分的“無(wú)意識(shí)/障礙”調(diào)整為“無(wú)/意識(shí)障礙”;放棄從“牛痘苗”中錯(cuò)誤提取到的術(shù)語(yǔ)“牛痘”。
2.2 實(shí)體最終識(shí)別
如典型肺炎、急性菌痢等病癥,通過(guò)初步識(shí)別只能識(shí)別出劃線部分。同時(shí),ICTCALS雖然能夠識(shí)別部分時(shí)間,卻無(wú)法識(shí)別5歲、l0余年等類型的時(shí)間短語(yǔ)。為了更精確地進(jìn)行實(shí)體識(shí)別,并引入了disease和time~unit這2種語(yǔ)義標(biāo)簽,用于標(biāo)識(shí)病癥和時(shí)間量詞(年、月等),對(duì)初步識(shí)別的結(jié)果進(jìn)行了語(yǔ)義標(biāo)注。依據(jù)樣本集統(tǒng)計(jì)結(jié)果,制定了5條實(shí)體識(shí)別規(guī)則,其概略表述如下:
RI disease一(tlblmtalnlzlh) disease
R2 disease— disease k?disease
R3 t— m(mlq)?time—unit
R4 t— a?t(f]m)?
R5 t— t t
其中m、q、t等單個(gè)英文字符表示詞性,“()”表示分組,“f”表示析取,“ ”表示出現(xiàn)0至多次,“?”表示出現(xiàn)0至1次。以規(guī)則3為例,自動(dòng)機(jī)依據(jù)該規(guī)則,可以將符合符號(hào)“一”右邊部分的文本識(shí)別為一個(gè)時(shí)間短語(yǔ)(t),具體識(shí)別過(guò)程可以參見(jiàn)前文中的圖1。
為了便于獲取統(tǒng)一的句型,建立了3類語(yǔ)義詞集,加上病癥和時(shí)間,句型將由5部分組成。不同句子成分采用不同的語(yǔ)義標(biāo)識(shí),標(biāo)注格式統(tǒng)一為“(標(biāo)識(shí)信息內(nèi)容)”,其中:“DI”表示病癥;“TP”表示時(shí)間,“VM”表示第一類語(yǔ)義詞,用于標(biāo)識(shí)病癥的開(kāi)始(患、發(fā)現(xiàn)等);“DS”表示第二類語(yǔ)義詞,表示病癥治愈狀況(治愈、好轉(zhuǎn)等);“NEG”為第三類語(yǔ)義詞,表示否定意義(否、非等)。依據(jù)規(guī)則和語(yǔ)義詞集,利用底層自動(dòng)機(jī)對(duì)樣本集中的句子進(jìn)行自動(dòng)識(shí)別和標(biāo)注,典型標(biāo)注結(jié)果如下所示:
例1:{TP去冬12月}{VM 患}{DI典型麻疹}、(DI肺炎},,w
例2:{TP 5周}{DS治愈}。/w
例3:{NEG無(wú)}{DI血吸蟲(chóng)病}史/ng。/w
2.3信息提取
本文中,具體目標(biāo)信息的類型判斷和提取由中層自動(dòng)機(jī)來(lái)完成。如“{TP去冬l2月)”,中層自動(dòng)機(jī)不僅能識(shí)別其句子成分為時(shí)間短語(yǔ)(TP),還能提取其中的時(shí)間信息(去冬12月)。為獲取一致的句型模式,對(duì)樣本集中的339個(gè)子句利用中層自動(dòng)機(jī)自動(dòng)提取其句子結(jié)構(gòu),并將頓號(hào)、和等可以表示并列的詞或標(biāo)點(diǎn)統(tǒng)一用“and”代替。最終,獲得了表1中5類含有目標(biāo)信息的常見(jiàn)句型模式,其中模式1—4為含有病癥名的句型,模式5為含有治愈狀況的句型。符號(hào)使用說(shuō)明參見(jiàn)3.2。
從句型上看,多個(gè)病癥并列的現(xiàn)象普遍存在,它們除了名稱和代碼不同,其余的信息均相同,可以統(tǒng)一處理。因此,本文以句號(hào)結(jié)尾的自然句為信息提取的獨(dú)立單元,當(dāng)句子中出現(xiàn)分號(hào)時(shí),則以分號(hào)劃分的分句作為信息提取的獨(dú)立單元。通過(guò)對(duì)各個(gè)句型模式本身的特以及所處的上下文環(huán)境的分析,本文針對(duì)每一句型模式設(shè)置了不同的提取規(guī)則。
最后,對(duì)每一獨(dú)立信息提取單元,根據(jù)提取到的句子結(jié)構(gòu),利用頂層自動(dòng)機(jī)進(jìn)行句型識(shí)別和分類處理,再利用中層自動(dòng)機(jī)依據(jù)相應(yīng)規(guī)則完成目標(biāo)信息提取。
■ 實(shí)驗(yàn)結(jié)果與數(shù)據(jù)分析
由于既往史中會(huì)出現(xiàn)大量重復(fù)的描述語(yǔ)句,因此,本文隨機(jī)提取700份來(lái)自醫(yī)院各個(gè)科室病歷,剔除其中完全相同的語(yǔ)句,最后獲得374條語(yǔ)句,共1031子句,作為測(cè)試樣本進(jìn)行信息提取。實(shí)驗(yàn)將每一病癥作為信息提取的單元,共提取~146S個(gè)信息單元,其中有100個(gè)單元提取到了完整的信息,314個(gè)單元提取到了時(shí)間信息,108個(gè)單元提取到了治愈狀況信息,各項(xiàng)實(shí)驗(yàn)結(jié)果數(shù)據(jù)如下,其中F=2P·R/(P+R):
實(shí)驗(yàn)結(jié)果表明,對(duì)于句子結(jié)構(gòu)相對(duì)簡(jiǎn)單的自由文本,采用淺層分析的技術(shù),在句型匹配的基礎(chǔ)上,依據(jù)少量的提取規(guī)則就能實(shí)現(xiàn)信息提取。本文依據(jù)句子結(jié)構(gòu)和目標(biāo)信息的相對(duì)位置來(lái)實(shí)現(xiàn)信息提取,并取得了較為滿意的提取結(jié)果。但是,從“治愈狀況”較低的召回率上也可以看出,僅依靠淺層句法分析并不能獲得文本中的全部信息。如“血壓經(jīng)間斷服藥后得到控制”,表示患者患有高血壓但未完全治愈,超過(guò)了一般淺層分析能處理的范圍,需要經(jīng)過(guò)更深層的語(yǔ)義分析才能理解。因此,對(duì)于描述復(fù)雜、缺乏規(guī)律的句子,僅通過(guò)幾個(gè)關(guān)鍵描述詞,信息提取的效果并不理想,需要進(jìn)一步的句法分忻才能進(jìn)行識(shí)別和提取。
本文對(duì)病癥名和時(shí)間的提取結(jié)果進(jìn)行了分析,發(fā)現(xiàn)錯(cuò)誤主要是由標(biāo)點(diǎn)錯(cuò)誤、句法分析不足、語(yǔ)義歧義和用語(yǔ)本身的錯(cuò)誤等幾個(gè)因素造成的,如何加強(qiáng)句法分析和歧義消除將是本課題今后研究的方向。
參考文獻(xiàn)
[1] Doan A,Naughton JF,Ramakri shnan R,et a1.Information extraction challenges in managing unstructured data[J].ACM SIGMOD Record,2008,37(4):14—20
[2]Erk K,Pad6 S.SHALMANESER—A Toolchain For Shallow Semantic Parsing[A]In Proceedings of LREC[C],2006,Genoa, Italy.
[3]Mykowiecka A,Marciniak M,et al Rule—based information extraction from patients’clinical data[J]Journal of Biomedical Informatics.2009.42:923—936
[4]Chang CH,Kayed M,et al A Su rvey of Web Information Extraction System[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(10):141 1-1428.
[5] 肖舂,周建龍.生物醫(yī)學(xué)領(lǐng)域中的文本信息抽取技術(shù)與系統(tǒng)綜述[Jll計(jì)算機(jī)應(yīng)用研究,2007,24(9):1-6.
[6]霍仲厚若病歷書(shū)寫(xiě)示范[M].江蘇:江蘇科學(xué)技術(shù) 版社,2004.
[7]李吳昱,李瑩,等中文病歷文檔術(shù)語(yǔ)提取和否定檢出方法[J1l中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2008,27(5):715-720.
- 1衛(wèi)生信息化建設(shè)亟待統(tǒng)一標(biāo)準(zhǔn)
- 2電子病歷是醫(yī)院檔案發(fā)展的趨勢(shì)
- 3電子病歷及其應(yīng)用概述
- 4門(mén)診收費(fèi)管理系統(tǒng)現(xiàn)狀
- 5醫(yī)院信息管理系統(tǒng)分析
- 6電子病歷成為醫(yī)改重點(diǎn)
- 7電子病歷的三個(gè)法律問(wèn)題探討
- 8電子病歷規(guī)范使用的體會(huì)
- 9醫(yī)院管理在新醫(yī)改下的信息化建設(shè)
- 10電子病歷系統(tǒng)臨床文檔的語(yǔ)義表示的建構(gòu)研究
- 11醫(yī)院電子病歷系統(tǒng)的設(shè)計(jì)
- 12醫(yī)囑套餐在門(mén)診收費(fèi)管理系統(tǒng)中醫(yī)生工作站的應(yīng)用
- 13無(wú)紙化電子病歷存儲(chǔ)模式在門(mén)診收費(fèi)管理系統(tǒng)化中的研究與實(shí)踐
- 14找個(gè)售后服務(wù)不錯(cuò)的門(mén)診收費(fèi)管理軟件?
- 15面向醫(yī)療信息的數(shù)據(jù)隱私保護(hù)技術(shù)
- 16我院電子病歷系統(tǒng)功能與應(yīng)用體會(huì)
- 17淺析數(shù)據(jù)挖掘技術(shù)在電子病歷中的應(yīng)用
- 182010年10月公司成功中標(biāo)五原縣婦幼保健院HIS項(xiàng)目
- 19惠東縣城區(qū)學(xué)齡前兒童HBsAg攜帶率調(diào)查分析
- 20Full-PACS建設(shè)的意義和特色
- 21基于電子病歷的臨床醫(yī)療質(zhì)量評(píng)價(jià)
- 22電子病歷檔案系統(tǒng)與互聯(lián)網(wǎng)
- 23電子體溫單與手繪體溫單的優(yōu)勢(shì)比較
- 24護(hù)理電子病歷的設(shè)計(jì)和質(zhì)量控制
- 25基于電子病歷的醫(yī)療質(zhì)量監(jiān)測(cè)與評(píng)估
- 26臨床路徑在電子病歷系統(tǒng)中的實(shí)現(xiàn)
- 27對(duì)話衛(wèi)生部權(quán)威人士:衛(wèi)生信息化促進(jìn)衛(wèi)生改革
- 28構(gòu)建院前急救電子病歷的幾點(diǎn)思考
- 29電子病歷概述
- 30基于片段和標(biāo)簽的口腔??齐娮硬v模板的設(shè)計(jì)與應(yīng)用
成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓