2009年4月19日星期日

TFIDF公式

TFIDF是计算向量空间模型中(VSM),词语在文档中所占权值大小的公式
TFIDF=TF xIDF
TF=Term Frequency
IDF=Inverse Document Frequency
具体计算公式如下: 词汇Wi对于文档d的tf为:
tf i(d) = d中Wi出现的总次数/d中所有词汇的总数
idf i = log(总的文档数/包含词汇Wi的文档数+0.1)//0.1 for 数据平滑

为了避免文档长度对tfidf的影响,进行归一化
得到最终公式:
















没有评论: