「三十而立」or「三十而慄」,寫下了人生感悟以及種種經歷,網路、科技、財經、閱讀、全球化趨勢,寫下這些文字的同時,也讓自己內省做為人生未來的指引... stupid77.com

2009年3月11日 星期三

SEO必修課程,搜索引擎中文分詞之邏輯…

曾經有一位Google的科學家說,「如果可以做好中文搜索引擎(或稱搜尋引擎,Search Engine),那麼我們就不怕任何語種的搜索引擎研究了」,引用這段話不是要說明中文有多麼的博大精深,而是當大家都在強調SEO之時,或許更應該了解 這些搜索引擎收錄每個網頁之後,如何將這些網頁歸類,並且透過分詞的技術,讓每個用戶在輸入關鍵詞的同時可以快速找到相關的資料訊息…

尤其是對新進的網站操作人員而言,熱門的關鍵詞不容易被操作成功,除了時間因素之外,這些關鍵詞多半被其他行家所操 控,但換個角度思考,搜索引擎用 戶所輸入的關鍵詞經常有出人意表之舉,因此了解這些搜索引擎的收錄與分類規則,在日常更新網站的時候,就能夠更巧妙的思考到搜索引擎如何的進行中文分詞 (或稱切詞),妥善的利用關鍵詞的長尾理論效益,讓更多搜索引擎用戶更快速的找到你…

工作上,我們也經營著一個垂直式的搜索引擎,這是一種主題式、特定領域的操作方式,這種垂直式搜索引擎的興起,正是 為了彌補Google、 Yahoo這些搜索引擎的不足,因為,當我們想搜找一本書籍時,赫然發現,書名或者作者名的搜尋結果,居然是一些不相幹的網頁,而用戶想要的卻往往落在數 頁之外…

問題就在於,其一,搜索引擎不知道你想找的究竟是什麼,是書籍呢?是影片呢?還是新聞?其二,搜索引擎的分詞出現不 足之處,以blog文章為例,或 許你寫了一句話,其中包含了一些專有名詞、人物名稱甚至是地名等等,然而卻被當成其他的詞彙硬生生被切開當成了不同的詞語,因而導致查看來路之時,發現很 多讓你意料不到甚至百思不解的來路關鍵詞出現…

上述的第一個問題,可以透過各行各業粗略的分類式搜尋獲得某種程度的改善,但以書籍為例,如果剛好同一個書名存在不同的書籍,可能有小說有漫畫有其他類的書籍,那還是只能靠人為的判斷,而第二個問題,則一直還是這些搜索引擎技術人員的重要課題…

或許這跟技術本身沒多大關係,更重要的是中文的使用邏輯以及中文分詞方式的認定,因為中文不像英文或者其他的語言,可以一個個單詞切割的很清楚,中文透過不同的標點符號來區分,同時每句話內又因每一個字的排列方式不同,而產生了不同的意思,比如說:…

一般都會透過幾種方式來解決中文分詞問題,首先透過建立中文詞庫的方式來讓搜索引擎的database作為歸類 index的依據,當遇到詞庫中的關 鍵分詞之時,先行標記歸類起來,方便用戶檢索時可以即時找到,有些比較嚴謹的,在分詞確認這個階段還會分步驟,比如說有一些分詞的權重比較高,會優先被選 中的,然後再進行二次的分詞匹配,但是一些字句當中,經常出現一句話正序(由左到右)來分詞,或者倒序來分詞,所切分出來關鍵詞不一致,或者是一些新增的 詞彙因為沒有在詞庫中,因而無法被匹配到,無法產生index…

所以進一步除了定時的維護詞庫之外,還需要透過統計的分詞方法來彌補針對正序或者倒序所切出不同分詞的合理性、正確 性,同文之中相鄰的字同時出現的 次數越多,就有可能是一個關鍵的分詞,另外透過以整個網頁字詞統計次數來區分權重,消除一些可能存在不合適、歧義的分詞出現;而最終還是需要有網站編輯人 員的抽樣檢驗審核…

從中可以看出,這不僅僅是技術的問題,而是對一個語言系統的研究,真正挑戰搜索引擎技術人員的,只是這些複雜的邏輯 該如何的簡化,應付一個日漸龐大 的詞庫以及index database,以提高搜索的速度以及效能,而真正能夠提高搜索結果準確度的,卻是不斷的研究這一門古老的中文文學,以及最快的速度因應不斷新增出現的 詞彙,以及一些地區性用語的差別…

所以,當我們在經營一個網站,或者編輯自己的blog文章之時,如果更加留意每句詞語的結構與用字遣詞,同時又能夠掌握一些即將發生的趨勢潮流,或許會得到更棒的經營的結果…

數位科技 By Stupid77

沒有留言: