全文检索、数据挖掘、推荐引擎系列3---全文内容推荐引擎之中文分词

2011/8/16 4:22:32中文系列评论(0)浏览(1656)

基于内容的推荐引擎有两种实现途径，一种是根据条目的元数据（可以将元数据理解为属性），另一种是根据条目的文本描述信息。本系列中将先描述基于条目描述信息的全文检索实现方式，然后描述基于元数据的内容推荐引擎实现方式。

对于基于条目文本描述信息的内容推荐引擎，目前有很多资料可以参考，基本步聚是先对文本内容进行分词，包括提取出单词、去掉常用词如的地得、加入同意词、对英语还有去掉复数形式和过去分词形式等；第二步是计算各个词在每篇文章中的出现频率，以及在所有文章中的出现频率，即TF/IDF；第三步计算文章向量；最后是利用自动聚类算法，对条目进行聚类，这样就可以实现向用户推荐同类产品的需求了。

但是在这里有一个非常重要的问题没有解决，就是中文分词的问题，这些文章中绝大部分都是以英文为背景的，而英文分词方面，分出单词很简单，只需要空格作为分隔符就可以了，而中文中词与词之间没有空格，其次是英文中单复数、过去分词等比较多，需要还原成单数现在式，但是中文中这个问题基本不存在，再有就是英文需要在分词后识别长的词组，而中文这一步也不需进行。

针对以上这些难题，在我的项目中，采用了MMSeg4j中文分词模块，这个项目集成了据说是搜狗输入法的10万多词库（大家知道中文分词的关键是中文词库）。

另外，我还希望中文分词可以在全文检索引擎和全文内容推荐引擎共用，由于全文检索引擎采用了Apache Lucene 3.x版本，需要中文分词模块符合Lucene的体系架构，幸运的是MMSeg4j提供了Lucene所需的Tokenizer实现类，同时还需要重点解决如下问题：

由于打开索引文件比较慢，所以整个程序共享一个indexer和searcher
考虑到准实时性需求，采用了Lucene新版本中reopen机制，每次查询前读入索引增量
采用Lucene默锁机制

在项目中我定义了全文检索引擎类：

public class FteEngine {

　　public static void initFteEngine(String _indexPathname) {
　　　　indexPathname = _indexPathname;
　　}

　　public static FteEngine getInstance() { // Singleton模式
　　　　if (null == engine) {
　　　　　　engine = new FteEngine();
　　　　}
　　　　return engine;
　　}

　　public IndexWriter getIndexWriter() {
　　　　return writer;
　　}

　　public IndexSearcher getIndexSearcher() {
　　　　try {
　　　　　　IndexReader newReader = reader.reopen(); // 读入新增加的增量索引内容，满足实时索引需求
　　　　　　if (!reader.equals(newReader)) {
　　　　　　　　reader.close();
　　　　　　　　reader = newReader;
　　　　　　}
　　　　　　searcher = new IndexSearcher(reader);
　　　　} catch (CorruptIndexException e) { ....

　　　　} catch (IOException e) {....
　　　　}
　　　　return searcher;
　　}

　　public Analyzer getAnalyzer() {
　　　　return analyzer;
　　}

　　public void stop() {
　　　　try {
　　　　　　if (searcher != null) {
　　　　　　　　searcher.close();
　　　　　　}
　　　　　　reader.close();
　　　　writer.close();
　　　　indexDir.close();
　　　　} catch (IOException e) {....
　　　　}
　　}

　　private FteEngine() {
　　　　analyzer = new MMSegAnalyzer(); // 初始化中文分词模块，会读入中文字典
　　　　IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_31, analyzer);
　　　　iwc.setOpenMode(OpenMode.CREATE_OR_APPEND);
　　　　try {
　　　　　　indexDir = FSDirectory.open(new File(indexPathname));
　　　　　　writer = new IndexWriter(indexDir, iwc); // writer和reader整个程序共用
　　　　　　reader = IndexReader.open(writer, true);
　　　　} catch (CorruptIndexException e) {......
　　　　} catch (LockObtainFailedException e) {......
　　　　} catch (IOException e) {.....

　　　　}
　　}
　　private static FteEngine engine = null;
　　private static String indexPathname = null;
　　private Directory indexDir = null;
　　private IndexWriter writer = null;
　　private IndexSearcher searcher = null;
　　private Analyzer analyzer = null;
　　private IndexReader reader = null;
}

具体中文分词可以使用如下代码：

FteEngine fteEngine = FteEngine.getInstance();
Analyzer analyzer = fteEngine.getAnalyzer();
String text = "测试2011年如java有意见分岐其中华人民共合国，oracle咬死猎人的狗！";
TokenStream tokenStrm = analyzer.tokenStream("contents", new StringReader(text));
OffsetAttribute offsetAttr = tokenStrm.getAttribute(OffsetAttribute.class);
CharTermAttribute charTermAttr = tokenStrm.getAttribute(CharTermAttribute.class);
String term = null;
int i = 0;
int len = 0;
char[] charBuf = null;
try {
　　while (tokenStrm.incrementToken()) {
　　charBuf = charTermAttr.buffer();
　　for (i = (charBuf.length - 1); i >= 0; i--) {
　　　　if (charBuf[i] > 0) {
　　　　　　len = i + 1;
　　　　　　break;
　　　　}
　　}
　　//term = new String(charBuf, offsetAttr.startOffset(), offsetAttr.endOffset());
　　term = new String(charBuf, 0, offsetAttr.endOffset() - offsetAttr.startOffset());
　　System.out.println(term);
}
} catch (IOException e) {
　　// TODO Auto-generated catch block
　　e.printStackTrace();
}

打印的内容如下：

测试 2011 年如 java 有意见分岐其中华人民共合国 oracle 咬死猎人的狗

当我们在缺省词库中加入单词：分岐中华人民共合国后，那么分词结果可以变为：

测试 2011 年如 java 有意见分岐其中华人民共合国 oracle 咬死猎人的狗

由此可见，可以通过完善中文词库，得到越来越好的中文分词效果。

作者: 最老程序员闫涛发表于 2011-08-16 11:30 原文链接

关键字全文检索,数据挖掘,推荐引擎系列3,全文内容推荐引擎之中文分词

推荐.NET配套的通用数据层ORM框架：CYQ.Data 通用数据层框架

IT技术博客

全文检索、数据挖掘、推荐引擎系列3---全文内容推荐引擎之中文分词

发表评论

公告信息

文章搜索

文章分类

文章档案

最新文章

最新评论

阅读排行榜

评论排行榜

友情链接