问题讨论:程序 C/C++ Java GUI编程 ASP Php Shell Perl Web开发 软件工程 三大件 机箱 存储设备 光存储 音频设备 视频设备 外设 购机
asp php java C CGI .net vb delphi unix|linux sql Word Excel WPS OutLook Powerpoint Dreamweaver FPage/Golive CSS/HTML DOM/JS
热门词:流程图 excel 入侵检测 vss Windows 安全漏洞 QQ空间 事件编程 MFC

 程序设计交流 > Java 

分享 不错的Lucene中文分词组件V1.2.2!!

[2007-11-14 15:25:26] [来源: 百家电脑学院] [我要投稿]

2006-6-14 10:13atlantis10
分享 不错的Lucene中文分词组件V1.2.2!!

1.2.2
完善了中英文噪声词典

1.2.1
修正中文数字成语无法识别的问题

1.2
增加中文数字的匹配(如:二零零六)
数量词采用“n”作为数字通配符
优化词典结构以便修改调整

1.1
增加扩展词典的静态读取方法

1.0.1
修正无法识别生僻字的问题

1.0
支持英文、数字、中文(简体)混合分词
常用的数量和人名的匹配
超过22万词的词库整理
实现正向最大匹配算法

下载地址:http://www.jesoft.cn/posts/list/5.page

2006-6-14 10:14tong0245
楼主的作品 吗?谢谢

2006-6-14 15:09zw_ren
好像我比较需要这方面的工作,对这些有经验的,大家可以讨论一下。

2007-4-19 10:50firesss
实在太感谢楼主了,我以前找了个分词的组件,但是分出来的词是乱七八糟。谢谢楼主。

2007-4-19 12:10firesss
楼主,我把JAR下载下来了,却没法用,是怎么回事啊?

2007-4-19 13:09wobushiwo
用逆向据说比较准点

稍微改一下应该就行

本篇文章来自:百家学院 (http://www.9php.com),详细参考以上网站.

·看过 分享 不错的Lucene中文分词组件V1.2.2!! 文章的还看过:

·百家学院 | 最新评论·

评论内容:不能少于5个字,请自觉遵守互联网相关政策法规。

用户名: 验证码: 验证码,看不清楚?请点击刷新验证码