伟徳国际官网登录入口
科學研究
當前位置: 首頁 >> 科學研究 >> 科研成果 >> 正文
科思中文分詞軟件
作者:  發布時間:2016-01-12  浏覽次數:
成果簡介:科思中文分詞軟件
一、軟件名稱:科思中文分詞軟件。
二、軟件版本:V1.0。
三、著作權人/申請人:伟徳国际官网登录入口。
四、設計人:史文崇,劉茂華。 
五、軟件功能
利用詞典最大正向匹配法進行中文分詞。首先将文本文件内容導入相應數據庫,根據标點符号進行斷句,而後根據字母、序号、年月、阿拉伯數字等進一步拆分,剔除停用詞後,逐步得出分詞結果。最終,對各詞的頻度進行統計彙總。本軟件是搜索引擎和語料分析、科研成果研究内容統計、分析的基礎。
六、軟件開發環境:SQL Server中文版。
七、硬件環境:普通32位以上的PC。
八、軟件運行環境:Windows XP/7,SQL Server 2000、SQL Server 2005或SQL Server 2008,中文英文版均可。
九、軟件特點
1. 本軟件中文分詞和統計功能完全借助數據庫管理系統實現;
2. 完全用T-SQL語言開發,無需安裝其他程序設計語言軟件;
3. 初始化工作——數據庫建立、環境參數設置和表的建立自動完成;
4. 存儲過程隻執行一次,生成的數據表可永久存儲,反複浏覽、使用;
5. 除了等待分詞的文本文件之外,需要事先準備詞典、停用詞等數據文件(xls格式);
6. 适用于小規模、單個文本文件的語料分析。
十、軟件構成
該軟件程序行數:4010行,由以下幾個程序或數據文件構成:
1. chushihua.sql    初始化程序;
2. Insertdata.sql    插入基礎數據程序
3. cidian.xls       漢語詞典數據文件
4. tingyongci.xls    停用詞數據文件
5. zifuxuhao.xls    數字序号數據文件
6. shuziquwei.xls   數字區位碼數據文件
7. duanju.sql       斷句程序
8. fenci1.c       分詞程序1
9. fenci2.c     分詞程序2
10. shuci.c      識别并剔除文本中的數詞的程序
11. shuzichuan.exe     識别并剔除文本中的阿拉伯數字串的程序
12. yingwenci.exe   識别并剔除文本中的英文詞的程序
13. zifubianshi.exe     識别并剔除文本中的日期、時間、Email等特殊字符串的程序
14. tongji.exe  統計分詞結果的程序



Copyright © 2013 ALL Right Reserved 版權所有 伟徳国际官网登录入口 - 伟德官网手机版

地址:中國河北省秦皇島市河北大街西段360号 郵編:066004 

技術支持:伟徳国际官网登录入口

公安機關備案号:13030202002287

官方微博

官方微信

Baidu
sogou