當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 泛普各地 > 湖南OA系統(tǒng) > 長(zhǎng)沙OA系統(tǒng) > 長(zhǎng)沙網(wǎng)站建設(shè)公司
淺析網(wǎng)站建設(shè)中的分詞技術(shù)
申請(qǐng)免費(fèi)試用、咨詢(xún)電話(huà):400-8352-114
分詞技術(shù)與是網(wǎng)站建設(shè)必須掌握的技術(shù)之一,但是我覺(jué)得網(wǎng)站建設(shè)利用分詞技術(shù)是有條件的,一個(gè)權(quán)重比較低的站用切詞技術(shù)有點(diǎn)不切實(shí)際,因?yàn)槟愫茈y從切詞中得到,因?yàn)槟愕恼緳?quán)重不夠!切詞再厲害也沒(méi)有用!所以新的站還是好好把關(guān)鍵詞的匹配做好!等網(wǎng)站的權(quán)重到一定程度之后才開(kāi)始做切詞的分析!這樣才能把更多的核心關(guān)鍵詞排上去!不過(guò)也有人有很多的異議,除了用切詞技術(shù)能獲得更多的關(guān)鍵詞之外還可以做更多的頁(yè)面來(lái)獲??!
中文自動(dòng)分詞是網(wǎng)頁(yè)分析的基礎(chǔ)。在網(wǎng)頁(yè)分析的過(guò)程中,中文與英文的處理方式是不同的,這是因?yàn)橹形男畔⑴c英文信息有一個(gè)明顯的差別:英文單詞之間有空格,而中文文本中詞與詞之間沒(méi)有分割符。這就要求在對(duì)中文網(wǎng)頁(yè)進(jìn)行分析之前,先要將網(wǎng)頁(yè)中的句子切割成一個(gè)個(gè)的詞的序列,這就是中文分詞。中文自動(dòng)分詞涉及到許多自然語(yǔ)言處理技術(shù)和評(píng)價(jià)標(biāo)準(zhǔn),在中,我們主要關(guān)心中文自動(dòng)分詞的速度和準(zhǔn)確度。分詞準(zhǔn)確性對(duì)來(lái)說(shuō)十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對(duì)于來(lái)說(shuō)也是不可用的,因?yàn)樾枰幚頂?shù)以?xún)|計(jì)的網(wǎng)頁(yè),如果分詞耗用的時(shí)間過(guò)長(zhǎng),會(huì)嚴(yán)重影響內(nèi)容更新的速度。因此,對(duì)分詞的準(zhǔn)確性和速度都提出了很高的要求。
目前,中文自動(dòng)分詞比較成熟的技術(shù)是基于分詞詞典的機(jī)械分詞方法。這種方法是按照一定的策略將要分析的漢字串與詞典中的詞條進(jìn)行匹配。根據(jù)匹配策略的不同,機(jī)械分詞方法又有如下幾種算法:正向最大匹配算法、逆向最大匹配算法、最少分詞算法等。這種方法的優(yōu)點(diǎn)是分詞的速度快,準(zhǔn)確度有一定的保證,但對(duì)未登錄詞的處理效果較差。實(shí)驗(yàn)結(jié)果表明:正向最大匹配的錯(cuò)誤率為1/169左右,逆向最大匹配的錯(cuò)誤率為1/245左右。另一種比較常用的中文自動(dòng)分詞方法是基于統(tǒng)計(jì)的分詞方法,這種方法是對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因此也稱(chēng)為無(wú)詞典分詞方法。但該方法經(jīng)常把不是詞的常用字組當(dāng)成詞,對(duì)常用詞的識(shí)別精度較差,時(shí)空開(kāi)銷(xiāo)也比較大。在領(lǐng)域的實(shí)際應(yīng)用中,一般將機(jī)械分詞方法與統(tǒng)計(jì)分詞方法相結(jié)合,先進(jìn)行串匹配分詞,然后使用統(tǒng)計(jì)方法識(shí)別一些未登錄的新詞,這樣既發(fā)揮了匹配分詞速度快、效率高的優(yōu)勢(shì),又利用了統(tǒng)計(jì)分詞中新詞自動(dòng)識(shí)別和自動(dòng)消除分詞歧義的特點(diǎn)。
分詞詞典是影響中文自動(dòng)分詞的一個(gè)重要因素,其規(guī)模一般在6萬(wàn)條詞左右,詞典太大或太小都是不合適的;辭典太小,有些詞切分不出來(lái),辭典太大,切分過(guò)程中起義現(xiàn)象將大大增加,同樣影響分詞的精度。因此,分詞詞典中詞條的選擇是非常嚴(yán)格的。對(duì)于不斷出現(xiàn)新詞的網(wǎng)絡(luò)領(lǐng)域,僅僅使用6萬(wàn)條詞左右的分詞詞典是不夠的,但隨意向分詞詞典中加入新詞將導(dǎo)致分詞精度下降,一般的解決方法是使用輔助詞典,其規(guī)模在50萬(wàn)詞條左右。另外,中文自動(dòng)分詞的難點(diǎn)在于分詞歧義的處理和未登錄詞的識(shí)別,如何處理這兩個(gè)問(wèn)題一直是該領(lǐng)域研究的熱點(diǎn)。
1、歧義處理,歧義是指可能有兩種或者更多的切分方法。例如:“表面的”這個(gè)詞組,因?yàn)椤氨砻妗焙汀懊娴摹倍际窃~,那么這個(gè)短語(yǔ)就可以分成“表面+的”和“表+面的”。這種稱(chēng)為交歧義。像這種交歧義十分常見(jiàn),“化妝和服裝”可以分成“化妝+和+服裝”或者“化妝+和服+裝”。由于沒(méi)有人的知識(shí)去理解,計(jì)算機(jī)很難知道到底哪個(gè)方案正確。
交歧義相對(duì)組合歧義來(lái)說(shuō)是還算比較容易處理,組合歧義就必須根據(jù)整個(gè)句子來(lái)判斷了。例如,在句子“這個(gè)門(mén)把手壞了”中,“把手”是個(gè)詞,但在句子“請(qǐng)把手拿開(kāi)”中,“把手”就不是一個(gè)詞;在句子“將軍任命了一名中將”中,“中將”是個(gè)詞,但在句子“產(chǎn)量三年中將增長(zhǎng)兩倍”中,“中將”就不再是詞。這些詞計(jì)算機(jī)又如何去識(shí)別?
即使交歧義和組合歧義計(jì)算機(jī)都能解決的話(huà),在歧義中還有一個(gè)難題,是真歧義。真歧義意思是給出一句話(huà),由人去判斷也不知道哪個(gè)應(yīng)該是詞、哪個(gè)應(yīng)該不是詞。例如:“乒乓球拍賣(mài)完了”,可以切分成“乒乓+球拍+賣(mài)+完+了”、也可切分成“乒乓球+拍賣(mài)+完+了”,如果沒(méi)有上下文其他的句子,恐怕誰(shuí)也不知道“拍賣(mài)”在這里算不算一個(gè)詞。對(duì)歧義現(xiàn)象的處理方法一般采用類(lèi)似于動(dòng)態(tài)規(guī)劃的算法將歧義問(wèn)題的求解轉(zhuǎn)化為一個(gè)問(wèn)題的求解。在求解過(guò)程中,一般使用詞頻或概率等輔助信息求得一個(gè)最大可能的分詞結(jié)果,這個(gè)結(jié)果在某種意義下是最佳的。
2、未登錄詞處理,未登錄詞就是分詞詞典中沒(méi)有的詞,也稱(chēng)為新詞。最典型的是人名、地名、專(zhuān)業(yè)術(shù)語(yǔ)等。例如,人可以很容易理解句子“王軍虎去廣州了”中,“王軍虎”是個(gè)詞,因?yàn)槭且粋€(gè)人的名字,但要是讓計(jì)算機(jī)去識(shí)別就困難了。如果把“王軍虎”作為一個(gè)詞收錄到字典中去,全世界有那么多名字,而且每時(shí)每刻都有新增的人名,收錄這些人名本身就是一項(xiàng)巨大的工程。即使這項(xiàng)工作可以完成,還是會(huì)存在問(wèn)題,例如:在句子“王軍**虎腦”中的,“王軍虎”還能不能算詞?
未登錄詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱(chēng)、省略語(yǔ)等都是很難處理的問(wèn)題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于來(lái)說(shuō),分詞系統(tǒng)中的新詞識(shí)別十分重要。目前,對(duì)未登錄詞的處理一般采用統(tǒng)計(jì)的方法,首先從語(yǔ)料中統(tǒng)計(jì)出出現(xiàn)頻率較高的字組,然后按照某種規(guī)則把它們作為新詞添加到輔助詞典中。
目前,中文自動(dòng)分詞技術(shù)在中已經(jīng)得到廣泛應(yīng)用,分詞準(zhǔn)確度已經(jīng)達(dá)到96%以上,但是在對(duì)大規(guī)模網(wǎng)頁(yè)進(jìn)行分析處理的時(shí)候,現(xiàn)有的中文自動(dòng)分詞技術(shù)還存在許多不足,例如上面提到的歧義問(wèn)題和未登錄詞的處理問(wèn)題等。
- 1對(duì)網(wǎng)站建設(shè)網(wǎng)站的檢測(cè)需從4個(gè)方面來(lái)做
- 2怎樣區(qū)別關(guān)鍵詞網(wǎng)站建設(shè)優(yōu)化的難易程度
- 3決定長(zhǎng)沙網(wǎng)站建設(shè)關(guān)鍵詞排名的幾個(gè)要點(diǎn)
- 4網(wǎng)站建設(shè)中需要遵守的網(wǎng)站建設(shè)原則是什么
- 5長(zhǎng)沙網(wǎng)站建設(shè)淺析為什么說(shuō)軟文營(yíng)銷(xiāo)有助于品牌推廣
- 6淺析中小企業(yè)網(wǎng)絡(luò)營(yíng)銷(xiāo)的特點(diǎn)以及如何展開(kāi)
- 7網(wǎng)站建設(shè)中如何對(duì)用戶(hù)行為進(jìn)行分析
- 8建設(shè)利于網(wǎng)絡(luò)營(yíng)銷(xiāo)的網(wǎng)站需要準(zhǔn)備哪些材料
- 9SEO優(yōu)化幾個(gè)關(guān)鍵要素分享
- 10淺析長(zhǎng)沙網(wǎng)站建設(shè)中關(guān)鍵詞分析的幾個(gè)基本原則
- 11網(wǎng)站上線(xiàn)后如何做好網(wǎng)站建設(shè)吸引客戶(hù)
- 12網(wǎng)站建設(shè)類(lèi)型有啥?金融型企業(yè)能使用網(wǎng)站嗎?
- 13在網(wǎng)站建設(shè)中交換友情鏈接需要注意的事項(xiàng)
- 14我們?cè)撊绾尉W(wǎng)站建設(shè)自己的營(yíng)銷(xiāo)型網(wǎng)站
- 15長(zhǎng)沙網(wǎng)站建設(shè)如何利用饑餓營(yíng)銷(xiāo)提高用戶(hù)體驗(yàn)
- 16長(zhǎng)沙網(wǎng)站建設(shè)淺析如何快速打造高質(zhì)量原創(chuàng)
- 17網(wǎng)站建設(shè)中如何在改版時(shí)保證網(wǎng)站排名
- 18如何利用微信網(wǎng)絡(luò)營(yíng)銷(xiāo)做好軟文推廣
- 19長(zhǎng)沙網(wǎng)站建設(shè)淺析用戶(hù)喜歡的網(wǎng)站的幾個(gè)基本要素
- 20網(wǎng)站建設(shè)公司能為企業(yè)帶來(lái)有效客戶(hù)嗎?
- 21怎樣正確應(yīng)對(duì)網(wǎng)站建設(shè)中的搜索引擎考核期
- 22做好網(wǎng)站建設(shè)除了內(nèi)容和外鏈還有什么?
- 23長(zhǎng)沙網(wǎng)站建設(shè)如何保證穩(wěn)定的關(guān)鍵詞排名
- 24新站做好網(wǎng)站建設(shè)優(yōu)化的幾大步驟
- 25如何根據(jù)用戶(hù)來(lái)研究合理定制長(zhǎng)沙網(wǎng)站建設(shè)關(guān)鍵詞
- 26淺析怎樣做好網(wǎng)站的網(wǎng)站建設(shè)工作
- 27淺析交換友情鏈接對(duì)于網(wǎng)站建設(shè)的好處
- 28扁平結(jié)構(gòu)網(wǎng)站對(duì)于長(zhǎng)沙網(wǎng)站建設(shè)優(yōu)化的好壞
- 29分析長(zhǎng)沙網(wǎng)站建設(shè)之長(zhǎng)尾關(guān)鍵詞優(yōu)化要點(diǎn)
- 30淺析關(guān)鍵詞對(duì)于網(wǎng)站網(wǎng)站建設(shè)的重要性
成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓