小说阅读网站,盗墓笔记同人小说

技術(shù)展示 NEWS

搜索引擎知識(shí)-中文分詞技術(shù)

72009-2

2009-2-7瀏覽：次

中文分詞是將一句話或一個(gè)短語(yǔ)按照日常閱讀習(xí)慣進(jìn)行機(jī)械分解。英文是以詞為單位的，詞和詞之間是靠空格隔開(kāi)，而中文是以字為單位，句子中所有的字連起來(lái)才能描述一個(gè)意思。例如，我很喜歡搜索引擎，分詞的結(jié)果是：我|很喜歡|搜索引擎。把中文的漢字序列切分成有意義的詞，就是中文分詞，有些人也稱為切詞。

　　中文每個(gè)字都可以直接作為一個(gè)詞來(lái)使用，沒(méi)有斷詞，正因?yàn)榇怂哦嘧儭ｋm然多變，但是在表達(dá)上靈活。但是對(duì)于搜索引擎來(lái)說(shuō)這是非常難以解決的問(wèn)題。在中文分詞當(dāng)中，有三種難分類(lèi)型。

　　1、交集型歧義

　　假設(shè)“ABC”是一個(gè)由A、B、C三個(gè)漢字構(gòu)成的字串，如果 “AB”、“BC”都是詞，那么計(jì)算機(jī)在切分時(shí)可以把“ABC”切分為“AB/C”，也可以切分為“A/BC”。這種切分歧義稱為交集型歧義。
　　2、組合型歧義

　　如果“AB”是詞、“ABC”也是詞，那么產(chǎn)生的切分歧義稱為組合型歧義。

　　3、混和型歧義

　　混和型歧義是包含交集型歧義和組合型歧義的切分歧義。

　　目前解決這些問(wèn)題主要通過(guò)字典和統(tǒng)計(jì)學(xué)的方法。

　　首先我們先說(shuō)說(shuō)字典分詞法。字典一般采用前綴樹(shù)和后綴樹(shù)的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)。什么是前綴樹(shù)呢？其實(shí)就是我們把一個(gè)句子從左向右掃描一遍，遇到字典里有的詞就標(biāo)識(shí)出來(lái)，遇到復(fù)合詞就找最長(zhǎng)的詞匹配，遇到不認(rèn)識(shí)的字串就分割成單字詞，于是簡(jiǎn)單的分詞就完成了。后綴樹(shù)就是從右向左掃描一遍。

　　統(tǒng)計(jì)學(xué)的方法，雖然字典分詞已經(jīng)解決了很多分詞上出現(xiàn)的問(wèn)題。但是面對(duì)很多新出的詞匯，分詞也面臨著挑戰(zhàn)。統(tǒng)計(jì)學(xué)的分詞方式是基于概念和信息學(xué)方面的知識(shí)進(jìn)行處理�；驹砭褪菍ふ夷切┙�(jīng)常一同出現(xiàn)的字，總是相互的字很有可能構(gòu)成一個(gè)詞。為此需要分析大量?jī)?nèi)容。即使到現(xiàn)在中文分詞還在不斷發(fā)展，還沒(méi)有一個(gè)分詞方法能徹底解決一切問(wèn)題。

　　對(duì)中文分詞有興趣的讀者，可以閱讀以下文獻(xiàn)：

1. 梁南元
書(shū)面漢語(yǔ)自動(dòng)分詞系統(tǒng)
http://www.touchwrite.com/demo/LiangNanyuan-JCIP-1987.pdf
2. 郭進(jìn)
統(tǒng)計(jì)語(yǔ)言模型和漢語(yǔ)音字轉(zhuǎn)換的一些新結(jié)果
http://www.touchwrite.com/demo/GuoJin-JCIP-1993.pdf
3. 郭進(jìn)
Critical Tokenization and its Properties
http://acl.ldc.upenn.edu/J/J97/J97-4004.pdf
4. 孫茂松
Chinese word segmentation without using lexicon and hand-crafted training data
http://portal.acm.org/citation.cfm?coll=GUIDE&dl=GUIDE&id=980775

上一篇：如何讓你的網(wǎng)站被搜索引擎收錄？
下一篇：如何優(yōu)化網(wǎng)站結(jié)構(gòu)

精品国产自在久国产_日韩午夜伦y4480私人影院_黄色视频在线观看国产网站_久久久精品无码AV少妇_韩国理论电影在线_欧美一级aa片在线播放_98精品偷自拍按摩偷偷_91香蕉视频黄色_亚洲一区无码中文字幕2021_国产最新凸凹视频免费

搜索引擎知識(shí)-中文分詞技術(shù)