成果簡介:科思中文分詞軟件
一、軟件名稱:科思中文分詞軟件。
二、軟件版本:V1.0。
三、著作權人/申請人:伟徳国际官网登录入口。
四、設計人:史文崇,劉茂華。
五、軟件功能
利用詞典最大正向匹配法進行中文分詞。首先将文本文件内容導入相應數據庫,根據标點符号進行斷句,而後根據字母、序号、年月、阿拉伯數字等進一步拆分,剔除停用詞後,逐步得出分詞結果。最終,對各詞的頻度進行統計彙總。本軟件是搜索引擎和語料分析、科研成果研究内容統計、分析的基礎。
六、軟件開發環境:SQL Server中文版。
七、硬件環境:普通32位以上的PC。
八、軟件運行環境:Windows XP/7,SQL Server 2000、SQL Server 2005或SQL Server 2008,中文英文版均可。
九、軟件特點
1. 本軟件中文分詞和統計功能完全借助數據庫管理系統實現;
2. 完全用T-SQL語言開發,無需安裝其他程序設計語言軟件;
3. 初始化工作——數據庫建立、環境參數設置和表的建立自動完成;
4. 存儲過程隻執行一次,生成的數據表可永久存儲,反複浏覽、使用;
5. 除了等待分詞的文本文件之外,需要事先準備詞典、停用詞等數據文件(xls格式);
6. 适用于小規模、單個文本文件的語料分析。
十、軟件構成
該軟件程序行數:4010行,由以下幾個程序或數據文件構成:
1. chushihua.sql 初始化程序;
2. Insertdata.sql 插入基礎數據程序
3. cidian.xls 漢語詞典數據文件
4. tingyongci.xls 停用詞數據文件
5. zifuxuhao.xls 數字序号數據文件
6. shuziquwei.xls 數字區位碼數據文件
7. duanju.sql 斷句程序
8. fenci1.c 分詞程序1
9. fenci2.c 分詞程序2
10. shuci.c 識别并剔除文本中的數詞的程序
11. shuzichuan.exe 識别并剔除文本中的阿拉伯數字串的程序
12. yingwenci.exe 識别并剔除文本中的英文詞的程序
13. zifubianshi.exe 識别并剔除文本中的日期、時間、Email等特殊字符串的程序
14. tongji.exe 統計分詞結果的程序