東坡下載:內(nèi)容最豐富最安全的下載站!

幫助|文件類型庫|最新更新|下載分類|排行榜

搜索查詢電子工業(yè)辦公軟件壓縮解壓轉換翻譯時鐘日歷文檔管理電子閱讀漢字輸入文字處理刪除恢復計算器

首頁應用軟件文字處理 → 盤古分詞(中英文分詞工具) V2.3.1.0 官方最新版

盤古分詞(中英文分詞工具)

盤古分詞(中英文分詞工具)V2.3.1.0 官方最新版

  • 大。194KB
  • 語言:中文
  • 平臺:WinXP
  • 更新:2013-07-07 11:3
  • 等級:
  • 類型:文字處理
  • 網(wǎng)站:http://pangusegment.codeplex.com/
  • 授權:免費軟件
  • 廠商:
  • 產(chǎn)地:國產(chǎn)軟件
好用好玩 50%(0)
坑爹 坑爹 50%(0)
軟件介紹軟件截圖相關軟件軟件教程網(wǎng)友評論下載地址
盤古分詞提供的字典包括17萬個中文常用單詞,但這個字典依然不夠完整,如果要分詞更準確,需要適當維護一下這個字典。
中文人名的識別能力取決于 ChsSingleName.txt, ChsDoubleName1.txt, ChsDoubleName2.txt 這三個文件,它們分別表示單子人名,
雙字人名的首字和雙字人名的尾字,如果有的人名沒有分出來,需要維護這三個文件。
中文分詞功能中文未登錄詞識別
盤古分詞可以對一些不在字典中的未登錄詞自動識別
詞頻優(yōu)先
盤古分詞可以根據(jù)詞頻來解決分詞的歧義問題
多元分詞
盤古分詞提供多重輸出解決分詞粒度和分詞精度權衡的問題
中文人名識別
輸入: “張三說的確實在理”
分詞結果:張三/說/的/確實/在理/
輸入 “李三買了一張三角桌子”
分詞結果:李三/買/了/一張/三角/桌子/
強制一元分詞
輸入 “張三說的確實在理”
分詞結果: 張(0,1)/張三(0,5)/三說的(1,1)/三(1,1)/說(2,5)/的(3,5)/確(4,1)/確實(4,5)/實(5,1)/在(6,1)/在理(6,5)/理(7,1)/
繁體中文分詞
輸入"我的選擇"
分詞結果: 我/的/選擇/
同時輸出簡體和繁體
輸入"我的選擇"
分詞結果:我(0,5)/的(1,5)/選擇(2,1)/選擇(2,5)/
中文詞性輸出
盤古分詞可以將以登錄詞的中文詞性輸出給用戶,以方便用戶做進一步處理。
全角字符支持
盤古分詞可以識別全角的字母和數(shù)字
英文分詞英文分詞
英文單詞通常都是靠空格等符號分割,這個比較簡單,盤古分詞分英文自然也沒有什么問題。
英文專用詞識別
一些英文簡寫是字母符號混合,或者是字母數(shù)字混合,這個分詞起來就不能按照空格符號這樣分割了,對于字母符號混合的如 U.S.A ,
只要將這個詞錄入到字典中,盤古分詞就可以分出整詞。對于字母和數(shù)字混合的,盤古分詞會自動作為整詞輸出。
英文原詞輸出
英文大小寫同時輸出
其他功能停用詞過濾
對于一些標點符號,連詞,助詞等有時候需要在分詞時過濾掉,盤古分詞提供一個 StopWord.txt 文件,用戶只要將需要過濾的詞加入到這個文件中,
并將停用詞過濾開發(fā)打開,就可以過濾掉這些詞。
設置分詞權值
盤古分詞可以讓用戶對如下特性設置自定義權值
1.未登錄詞權值
2.最匹配詞權值
3.次匹配詞權值
4.再次匹配詞權值
5.強行輸出的單字的權值
6.數(shù)字的權值
7.英文詞匯權值
8.符號的權值
9.強制同時輸出簡繁漢字時,非原來文本的漢字輸出權值。
*用戶自定義規(guī)則
字典管理
盤古分詞提供一個字典管理工具 DictManage 通過這個工具,你可以增加,修改,和刪除字典中的單詞
動態(tài)加載字典
通過字典工具增加,修改,和刪除字典中的單詞后,保持字典,盤古分詞會自動將新的字典文件加載進去,而不需要重新啟動。
關鍵詞高亮組件
Lucene 提供了一個關鍵詞高亮組件,但這個組件對中文的支持不是特別好,特別是如果還有多元分詞的情況,處理的就更不好。
盤古分詞提供了一個針對中文和英文的關鍵詞高亮組件 PanGu.HighLight ,其對中文的支持要好于Lucene 那個高亮組件。
同義詞輸出(后續(xù)版本提供)
Lucene.net 接口及示例
在PanGu4Lucene 這個包里面有我做的一個盤古+Lucene 的簡單新聞搜索Web示例程序,Release 包里面有使用說明。
性能指標
Core Duo 1.8 GHz 下單線程 分詞速度為 390K 字符每秒,2線程分詞速度為 690K 字符每秒。
PC官方
安卓官方手機版
IOS官方手機版

盤古分詞(中英文分詞工具)截圖

下載地址

盤古分詞(中英文分詞工具) V2.3.1.0 官方最新版

熱門評論
最新評論
第 1 樓 美國CZ88.NET 網(wǎng)友 東坡網(wǎng)友 發(fā)表于: 2019/1/17 9:58:14
是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。开发人员可以基于Lucene.net实现全文检索的功能。

支持( 0 ) 蓋樓(回復)

發(fā)表評論 查看所有評論(1)
昵稱:
表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
字數(shù): 0/500 (您的評論需要經(jīng)過審核才能顯示)

編輯推薦

報錯

請簡要描述您遇到的錯誤,我們將盡快予以修正。

轉帖到論壇
輪壇轉帖HTML方式

輪壇轉帖UBB方式