基于大规模语料的新词发现算法

挖掘新词的传统方法是先对文本进行分词，猜测未能成功匹配片段就是新词。但这种方式依赖于词库的完整性，如果词库中根本没有新词，我们又怎能信任分词结果呢？顾森在文中介绍了一种基于大规模语料的新词发现算法。对中文资料进行自然语言处理时，我们会遇到很多其他语言不会有的困难，例如分词——汉语的词与词之间没有空格，那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已／结婚／的／和／尚未／结婚／的”，还是“已

《新程序员》编辑部

6173人浏览 · 2013-05-16 15:35:36

《新程序员》编辑部 · 2013-05-16 15:35:36 发布

挖掘新词的传统方法是先对文本进行分词，猜测未能成功匹配片段就是新词。但这种方式依赖于词库的完整性，如果词库中根本没有新词，我们又怎能信任分词结果呢？顾森在文中介绍了一种基于大规模语料的新词发现算法。

对中文资料进行自然语言处理时，我们会遇到很多其他语言不会有的困难，例如分词——汉语的词与词之间没有空格，那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已／结婚／的／和／尚未／结婚／的”，还是“已／结婚／的／和尚／未／结婚／的”呢？

基于大规模语料的新词发现算法：http://www.csdn.net/article/2013-05-08/2815186

更多阅读请访问程序员官网新首页：http://programmer.csdn.net/

《新程序员》社区

20年前，《新程序员》创刊时，我们的心愿是全面关注程序员成长，中国将拥有新一代世界级的程序员。20年后的今天，我们有了新的使命：助力中国IT技术人成长，成就一亿技术人！

更多推荐

cover

【提问募集】向世界级软件开发大师“Bob 大叔”Robert C. Martin 提出你的疑虑！

《新程序员》社区

cover

终极珍藏，新程序员 002 仅剩最后 3 本！一文 Get 订阅指南

《新程序员》社区

cover

大模型刷新一切，程序员面临迭代危机？

《新程序员》社区

所有评论(0)

查看更多评论

《新程序员》编辑部

@programmer_editor

已为社区贡献1642条内容