近一周工作小结
目标:基于SVM的短信分类器
主要任务:分词,SVM程序
分词采用中科院分词开源程序ictlas4j(by sinboy,作者blog地址:http://blog.csdn.net/sinboy/category/207165.aspx),初步调试未发现bug。
SVM
SVM(Support Vector Matchine)是近年来在机器学习、自然语言处理领域广泛使用、效果杰出的分类方法,libsvm是国立台湾大学林智仁教授开发的基于SVM的开源工程(http://www.csie.ntu.edu.tw/~cjlin/),SVM的理论并不简单,但是使用libsvm并不困难,推荐经典入门指南http://ntu.csie.org/~piaip/svm/svm_tutorial.html。
最近发现,对于训练样本与特征维数都比较大(比如数量级上万)的分类问题(大规模文本分类),应用线性核函数的svm更合适(准确率稍高,时间和空间比较爽),对应的工具是
LIBLINEAR(http://www.csie.ntu.edu.tw/~cjlin/liblinear/)
目前正在用JAVA进行程序实现,思路已经明确,希望尽快完成 :)
没有评论:
发表评论