當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 領(lǐng)域應(yīng)用 > 醫(yī)院管理OA系統(tǒng) > 門(mén)診收費(fèi)管理系統(tǒng)
中文電子病歷的信息抽取研究
申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114
引言
信息抽取作為一種文本處理技術(shù)n],通過(guò)利用機(jī)器的計(jì)算能力、計(jì)算的精確度和準(zhǔn)確度為枯燥的信息搜索、分析和識(shí)別工作提供了理想的方法。信息抽取的主要功能是從文本中抽取特定的事實(shí)信息,被抽取出來(lái)的信息以結(jié)構(gòu)化的形式描述,可以直接存人數(shù)據(jù)庫(kù)中,供用戶查詢以及進(jìn)一步分析使用。在醫(yī)院信息系統(tǒng)的電子病歷(electronic medical re-cords,EMR)中蘊(yùn)含著豐富的信息和知識(shí)。本研究利用文本工程通用框架(GATE)進(jìn)行中文EMR信息抽取研究,目的是加強(qiáng)自然語(yǔ)言理解和本體方法在中文醫(yī)學(xué)文本語(yǔ)義標(biāo)注和內(nèi)容分析中的應(yīng)用,為建立計(jì)算機(jī)可讀的EMR提供技術(shù)支持。
1 病種選擇和EMR文本的預(yù)處理
本文將病種選定為神經(jīng)內(nèi)科疾病腦梗死。在醫(yī)院信息系統(tǒng)中,以“《國(guó)際疾病分類》(ICD9)編碼=434.9”為檢索條件,選擇2008年1~6月問(wèn)診斷為腦梗死的住院病人電子病歷83份,將其轉(zhuǎn)存為純文本格式并以此作為EMR文檔集。采用基于詞典的雙向最大匹配切詞法對(duì)EMR進(jìn)行分詞處理。將經(jīng)過(guò)分詞的EMR文檔集導(dǎo)入GATE平臺(tái)。
2 基于GATE的EMR語(yǔ)義標(biāo)注和信息抽取
2.1 GATE基本架構(gòu)
GATE是英國(guó)謝菲爾德大學(xué)研究開(kāi)發(fā)的Java開(kāi)源項(xiàng)目,為用戶提供了圖形化的開(kāi)發(fā)環(huán)境,被許多自然語(yǔ)言處理項(xiàng)目尤其是信息抽取的項(xiàng)目采用,例如,美國(guó)匹茲堡大學(xué)建立癌癥文本信息抽取系統(tǒng)(cancer text information extraction system ,caT—IES)[2]。caTIES具有從臨床自由文本中抽取編碼信息的功能,可以利用受控詞表從臨床自由文本如
外科病理報(bào)告中抽取編碼信息并生成caBIG兼容的數(shù)據(jù)格式。
為簡(jiǎn)化語(yǔ)言工程系統(tǒng)開(kāi)發(fā)流程,GATE設(shè)計(jì)了“算法+數(shù)據(jù)+圖形用戶界面一應(yīng)用”基本結(jié)構(gòu)口]。按照此結(jié)構(gòu),GATE選用面向?qū)ο蟮木幊陶Z(yǔ)言和基于JavaBean組件的軟件開(kāi)發(fā)方式,開(kāi)發(fā)出一個(gè)核心庫(kù)和一系列可重用語(yǔ)言工程組件(a collection of re—usable objects for language engineering, CRE-OLE)。每個(gè)CREOLE組件包括語(yǔ)言資源(LRs)、處理資源(PRs)和可視化資源(VRs)三類資源,資源參數(shù)存儲(chǔ)于creole.xml文件中。用戶可根據(jù)應(yīng)用快速靈活定制、修改、擴(kuò)展各組件。GATE中的所有可重用資源的集合,被整體地用在了基于規(guī)則方法的英文信息抽取系統(tǒng)(a nearly—new information ex—traction system,ANNIES)中]。GATE 4.0提供了中文信息抽取組件,可以在語(yǔ)料分詞的前提下,實(shí)現(xiàn)人名、地名、機(jī)構(gòu)名、時(shí)間、日期等命名實(shí)體的自動(dòng)標(biāo)識(shí)和抽取。
2.2 命名實(shí)體識(shí)別規(guī)則的構(gòu)建
2.2.1 JAPE規(guī)則定義語(yǔ)言基于詞典識(shí)別實(shí)體的方法盡管簡(jiǎn)單,但無(wú)法有效處理新詞、變體詞等[5]。因此,GATE提供基于規(guī)則的實(shí)體識(shí)別引擎(java annotation patterns engine,JAPE)。JAPE的功能是建立規(guī)則庫(kù),用正則表達(dá)式匹配文本中的信息并作好標(biāo)注,用于實(shí)現(xiàn)分詞、分句和較準(zhǔn)確的命名實(shí)體識(shí)別。JAPE表現(xiàn)為一組規(guī)則語(yǔ)法文件,這個(gè)語(yǔ)法文件可以經(jīng)過(guò)GATE里提供的一個(gè)JAPECompiler轉(zhuǎn)換成一個(gè)標(biāo)準(zhǔn)的PR。一個(gè)JAPE語(yǔ)法文件包括若干個(gè)片(Phase),每個(gè)Phase由若干個(gè)模式/行為規(guī)則(rule)組成。系統(tǒng)運(yùn)行時(shí),這些片段順次作用,針對(duì)標(biāo)注形成級(jí)聯(lián)的有限狀態(tài)轉(zhuǎn)換器。每條rule由左側(cè)和右側(cè)兩部分組成。左側(cè)部分(1efthand side,LHS)是一個(gè)包含正則表達(dá)式操作符的標(biāo)注模式。每條規(guī)則的右側(cè)部分(right hand side,RHS)包含了標(biāo)注集操作描述。與左側(cè)部分匹配上的標(biāo)注集將會(huì)按照右側(cè)的操作執(zhí)行。
2.2.2 JAPE規(guī)則實(shí)例構(gòu)建命名實(shí)體是文本中基本的信息元素,是正確理解文本的基礎(chǔ)。命名實(shí)體識(shí)別就是要判斷一個(gè)文本串是否代表一個(gè)命名實(shí)體,并確定它的類別。在信息抽取研究中,命名實(shí)體識(shí)別是目前最有實(shí)用價(jià)值的一項(xiàng)技術(shù)。GATE提供了一些中文信息抽取中的時(shí)間、地點(diǎn)、稱謂、貨幣、URL和Email等識(shí)別規(guī)則。本文建立EMR患者性
別和年齡識(shí)別規(guī)則如下:
//性別識(shí)別規(guī)則
Rule:Sex
(
(Lookup.majorType一一sex}
):tag
一>
:tag.Sex一(kind— sex,rule— Sex)
//年齡識(shí)別規(guī)則
Rule:Age
(
{Token.kind一一number)
{Lookup.majorType= 一age)
):tag
~ >
:tag.Age一(kind— age,rule— Age)
對(duì)于新的類型的命名實(shí)體,都可以通過(guò)規(guī)則的建立來(lái)進(jìn)行識(shí)別。在JAPE語(yǔ)法組織文件(main.jape)中增加新片段定義名,可以顯著提高標(biāo)注效率。
2.3 專業(yè)分類詞表構(gòu)建
GATE中的Gazetteer是由一系列包含時(shí)問(wèn)、地點(diǎn)等基礎(chǔ)實(shí)體名稱的列表集合。GATE借助Gazet—teer完成部分語(yǔ)義標(biāo)注工作。為了更為專業(yè)、精確地識(shí)別命名實(shí)體,本文對(duì)Gazetteer進(jìn)行擴(kuò)展。本文構(gòu)建1O個(gè)神經(jīng)內(nèi)科常用藥物表、7個(gè)冠心病治療常用藥物表、1個(gè)神經(jīng)解剖名詞表和1個(gè)中藥名詞表
(見(jiàn)表1)
2.4 中文醫(yī)學(xué)本體的導(dǎo)入
20世紀(jì)90年代以來(lái),語(yǔ)義網(wǎng)技術(shù)的興起和發(fā)展促進(jìn)了知識(shí)本體研究的不斷深入。知識(shí)工程中的本體是共享的、概念化的、明確的、形式化的規(guī)范說(shuō)明嘲。其中,“共享”指所建立的概念可以在專業(yè)領(lǐng)域范圍內(nèi)共同接受;“概念化”指對(duì)領(lǐng)域中的現(xiàn)象和事物進(jìn)行抽象建模;“規(guī)范”是對(duì)領(lǐng)域中概念或知識(shí)第4期李毅等:中文電子病歷的信息抽取研究進(jìn)行限制與約束;“明確”指概念的類型、概念問(wèn)的關(guān)聯(lián)與約束是顯性的、確定的;“形式化”指描述本體
的、無(wú)歧義的自然語(yǔ)言和人工語(yǔ)言具有一定的表達(dá)形式。根據(jù)本體的定義,可以用概念、關(guān)系、函數(shù)、公理進(jìn)行限制與約束;“明確”指概念的類型、概念問(wèn)的關(guān)聯(lián)與約束是顯性的、確定的;“形式化”指描述本體的、無(wú)歧義的自然語(yǔ)言和人工語(yǔ)言具有一定的表達(dá)形式。根據(jù)本體的定義,可以用概念、關(guān)系、函數(shù)、公理和實(shí)例等5個(gè)基本的建模元語(yǔ)(Modeling Primitive) 描述特定的領(lǐng)域本體。將已有的神經(jīng)信息學(xué)本體導(dǎo)人GATE平臺(tái)。該本體符合W3C OWL
(Web Ontology Language)規(guī)范,包括神經(jīng)科學(xué)、神經(jīng)疾病和中醫(yī)腦病的概念、關(guān)系和實(shí)例(見(jiàn)圖1、2)。
2.5 語(yǔ)義標(biāo)注和信息抽取結(jié)果
通過(guò)構(gòu)建命名實(shí)體識(shí)別規(guī)則,建立分類詞表和導(dǎo)人中文醫(yī)學(xué)領(lǐng)域本體,可以完成EMR文檔集的自動(dòng)語(yǔ)義標(biāo)注(見(jiàn)圖3),也可以進(jìn)行新的標(biāo)識(shí)或已有標(biāo)識(shí)的修正,從而在語(yǔ)義標(biāo)識(shí)基礎(chǔ)上實(shí)現(xiàn)語(yǔ)義信息抽取,并對(duì)結(jié)構(gòu)化的信息抽取結(jié)果進(jìn)行統(tǒng)計(jì)分析。
2.5.1 患者性別和年齡特征信息抽取通過(guò)對(duì)患、者性別和年齡特征的抽取可以得出EMR文檔集中腦梗死患者的性別和年齡分布狀況。信息抽取和統(tǒng)計(jì)分析結(jié)果(見(jiàn)圖4)顯示,82例患者中,男性59例,女性23例(男女比例為2.6:1);
H 8 6 4年齡最大87歲,最小1歲,平均值為64.76歲,標(biāo)準(zhǔn)差一15.702;5O歲以上73例(占全部病歷數(shù)的89.O2 ),5O 歲以下9例(占全部病歷數(shù)的1O.88 )。2 O
2.5.2 腦梗死疾病治療用藥特征信息抽取本文以神經(jīng)系統(tǒng)解剖結(jié)構(gòu)、神經(jīng)系統(tǒng)疾病治療用藥、冠心病治療用藥以及中醫(yī)用藥為主題,進(jìn)行EMR文本特征提取。提取的特征項(xiàng)的主要類型或次要類型包括:
minorType=NeuSysAna(:~O經(jīng)系統(tǒng)解剖)
majorType=neurodrugs(神經(jīng)疾病治療用藥)
majorType=heartdrugs(冠心病治療用藥)
m inorType= TCM — Drug(中醫(yī)用藥)。
對(duì)抽取結(jié)果進(jìn)行分析,可以得到82份EMR的用藥情況。
其中,腦梗死治療用藥有7類:① 解熱鎮(zhèn)痛抗炎藥(阿司匹林);② 影響腦血管、腦代謝及促智藥(奧拉西坦、奧扎格雷鈉、丁苯酞、金納多、血塞通、銀杏葉提取物、恩必普、阿米三嗪蘿巴新、克林澳、尼莫地平、鼠神經(jīng)生長(zhǎng)因子、依達(dá)拉奉、阿魏酸鈉、吡拉西坦、氟桂利嗪、葛根素、桂哌齊特);③抗癲癇藥(卡馬西平、妥泰);④ 抗抑郁癥藥(阿米替林、西酞普蘭);⑤ 抗精神病藥(奧氮平、氟哌啶醇、奮乃靜);⑥鎮(zhèn)靜、催眠及抗驚厥藥(魯米那、苯巴比妥);⑦ 中樞興奮藥(洛貝林、尼可剎米)。冠心病治療用藥有5類:① 鈣通道阻滯劑(硝苯地平、地爾硫卓);② 調(diào)整血脂藥物
(辛伐他汀、洛伐他汀);③ 硝酸酯制劑(硝酸甘油);④ 溶血栓藥物(尿激酶、肝素、華法令);⑤ 抗血小板藥物(阿斯匹林)。在82份病歷中,中藥銀杏葉和丹參用得最多;有兩份被診斷為中風(fēng)(中經(jīng)絡(luò))并結(jié)合中藥治療的病歷,分別用到了17種中藥和14種中藥。
2.6 討論
為了全面掌握疾病發(fā)生、發(fā)展和預(yù)后的規(guī)律性,臨床上需要對(duì)患者的病歷進(jìn)行統(tǒng)計(jì)分析。但是通過(guò)人工閱讀和統(tǒng)計(jì)的病歷分析費(fèi)時(shí)費(fèi)力。本文通過(guò)基于GATE的EMR信息抽取,得到了有關(guān)腦梗死患者性別和年齡分布情況以及治療用藥一般性規(guī)律的知識(shí)。信息抽取的整個(gè)過(guò)程是經(jīng)計(jì)算機(jī)“閱讀”而完成的。雖然這些從82篇EMR文檔中得到的知識(shí)
需要領(lǐng)域?qū)<业膶彾?,然而?duì)于計(jì)算機(jī)來(lái)說(shuō),這些知識(shí)確實(shí)是新的知識(shí)。如果文檔集數(shù)量足夠大,在領(lǐng)域?qū)<业膮⑴c下,通過(guò)基于本體的EMR信息抽取進(jìn)行知識(shí)發(fā)現(xiàn)是可行的。而且,利用本體就可以根據(jù)用戶的需求,在EMR未經(jīng)任何標(biāo)引的情況下進(jìn)行面向主題的文本特征提取。例如,針對(duì)82篇EMR文檔集,可以將主題確定為腦梗死發(fā)生的危險(xiǎn)性分析、腦梗死的定位診斷、腦梗死合并其它病癥時(shí)的聯(lián)合用藥等。
3 結(jié)束語(yǔ)
自然語(yǔ)言理解和本體的理論和技術(shù)手段有效地改善了計(jì)算機(jī)對(duì)文本的“理解”能力。在此基礎(chǔ)上,醫(yī)務(wù)人員可以根據(jù)需要在計(jì)算機(jī)的輔助下對(duì)EMR進(jìn)行信息抽取和統(tǒng)計(jì)分析,從而提高知識(shí)挖掘的效率。
參考文獻(xiàn)
[1] SIEFKES C,SINIAKOV P.An overview and classification of adaptive approaches to information extraction[J].Journal on Data Semantics IV.2005,3730(4):171-212.
[2] CROWLEY R,CHAVAN G,MITCHELL K,et a1.cATIE end User manual(Phase 2 Version 2.O).https://eabig.nci.nih.gov/tools/caties.(2009—8—24)
[3] CUNNINGHAM H,MAYNARD D,BONTCHEVA K,et a1.GATE:A framework and graphical development environ—ment for robust NLP tools and applications[c].Philadelphia:Proceedings of the 40th Anniversary Meeting of the Assoeia—tion for Computational Linguistics.2002:168—175.
[4] cuNNINGHAM H,MAYNARD D,B0NTcHEVA K。et a1.Developing language processing components with GATE Version 5(a User Guide).http://gate.a(chǎn)c.uk/sale/ta0/tao.pdf.(2009—8—24)
[5]KRAUTHAM M ER M . NENADIC G.TerTn identm catiOn in the biomedical literature[J].Journal of Biomedical Informat—ies,2004,37(6):512-526.
[6]STUDER R,BENJAMINS V R。FENSEL D.Knowledge engi—neering,principles and methods[J].Data and Knowledge En—gineering,1998,25(1—2):16卜197.
[7]PEREZ A G,BENJAMINS V R.Overview of knowledge sha-ring and reuse com ponents: ontologies and problem solving methods[c].In:Benjamins V R,Chandrasekaran B,Gomez-Perez A,et a1.Proceedings of the IJCAI 99 workshop on On·tologies and Problem Solving M ethods (KRR5),Stockholm ,Sweden。1999,1—15.http://ftp.informatik.rwth-aachen.de/Pub1ications/CEUR—W S/Vol一18/1-gomez.pdf.(2009-8—24)
(收稿:2009-09—03 修回:2009—10—30)
- 1門(mén)急診電子處方的使用及缺陷分析
- 22012年,醫(yī)生工作站已勢(shì)在必行
- 3對(duì)精神科電子病歷的探討,來(lái)看同行業(yè)電子病歷的發(fā)展
- 4電子病歷系統(tǒng)的信息整合
- 5O racle X M L D B和D B 2 p ure X M L在
- 6電子病歷(EMR)集成展現(xiàn)的設(shè)計(jì)與實(shí)現(xiàn)
- 7關(guān)于病歷檔案“雙軌制’’管理的探討
- 81994-2009年我國(guó)電子病歷文獻(xiàn)計(jì)量學(xué)分析
- 9醫(yī)院HIS系統(tǒng)的電子處方與藥品管理新模式的討論
- 10基于COM方式的臨床路徑系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
- 11衛(wèi)生法教學(xué)案例素材的收集與應(yīng)用
- 12甲型H I N 1流感電子病歷與手寫(xiě)病歷規(guī)范化比較
- 13電子病歷質(zhì)控方法的改進(jìn)與作用
- 14基于電子病歷系統(tǒng)的臨床路徑管理應(yīng)用研究
- 15電子病歷表現(xiàn)在臨床研究的元數(shù)據(jù)概念
- 16醫(yī)療衛(wèi)生部:加強(qiáng)醫(yī)院信息化建設(shè)
- 17電子病歷在我國(guó)發(fā)展所存在的問(wèn)題
- 18門(mén)診收費(fèi)管理系統(tǒng)的醫(yī)生工作站應(yīng)用與體會(huì)
- 19護(hù)理電子病歷系統(tǒng)的開(kāi)發(fā)與應(yīng)用
- 203月份公司成功簽約伊旗衛(wèi)生局全民體檢項(xiàng)目
- 21構(gòu)建基于“軍衛(wèi)一號(hào)"的電子病歷費(fèi)用審核流程
- 22PDA在臨床護(hù)理中的應(yīng)用體會(huì)
- 23海南省推行電子病歷
- 24基于片段和標(biāo)簽的口腔??齐娮硬v模板的設(shè)計(jì)與應(yīng)用
- 25試論門(mén)診醫(yī)生工作站上線
- 26門(mén)診收費(fèi)管理系統(tǒng)、電子病歷與醫(yī)生工作站
- 27電子病歷與病人健康檔案數(shù)據(jù)交換的研究
- 28電子病案模版客戶定制技術(shù)研究
- 29住院醫(yī)生工作站系統(tǒng)
- 30醫(yī)院門(mén)診收費(fèi)管理系統(tǒng)特色
成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓