skip to main
|
skip to sidebar
飞翔天空
2009年4月19日星期日
TFIDF公式
TFIDF是计算向量空间模型中(VSM),词语在文档中所占权值大小的公式
TFIDF=TF xIDF
TF=Term Frequency
IDF=Inverse Document Frequency
具体计算公式如下: 词汇Wi对于文档d的tf为:
tf i(d) = d中Wi出现的总次数/d中所有词汇的总数
idf i = log(总的文档数/包含词汇Wi的文档数+0.1)//0.1 for 数据平滑
为了避免文档长度对tfidf的影响,进行归一化
得到最终公式:
没有评论:
发表评论
较新的博文
较早的博文
主页
订阅:
博文评论 (Atom)
博客归档
▼
2009
(15)
▼
四月
(15)
Java 常用类型转换 总结
Java 常用正则表达式小结
Java 调用 exe与cmd 小结
转义字符小结
TFIDF公式
static+
Eclipse环境下的Java调试小结
Java中应用正则表达式过滤的小例子
ictclas4j bug小结
正则表达式总结
(转) 随便说说字符集和编码
libsvm使用心得
SVM解决多分类问题的方法
Java技术小结
工作小结
►
2008
(1)
►
十月
(1)
►
2007
(1)
►
五月
(1)
我的简介
freehello
查看我的完整个人资料
没有评论:
发表评论