
基本术语
词频(TF)
TF只是文档中单词的出现频率。

其中x表示文档d的值,项目t的值。
反文档频率(IDF)
IDF是整个文档集中文档频率的倒数。

其中N表示文档数量, DF表示其中我们看到此项t出现的文档数量。
特遣部队
使用TF-IDF的主要原因是两个原因:假设我们在Google上搜索“分析的兴起” 。 可以肯定的是,“ the”的出现频率要比“ analytics”高,但分析的相对重要性高于搜索查询的观点。

案例1 — TF-IDF
原始数据如下,我们按照三个步骤来计算余弦相似度。

- 计算词频

- 计算IDF(假设文档总数为50,000)

- 正常化
首先计算向量的长度,然后将每个值除以长度。

Document1-Analytics的值= 1.69897 / 3.45503 = 0.4917375。

到目前为止,我们可以计算两个文档的余弦相似度。

- 项目的最终值(乘以TF-norm和IDF)。
如果搜索“文件洞察力” ,则每个文档的值如下。

document1=0.688(TF-norm)*2.397(IDF_2)+0.376(TF-norm)*2.397 的值
(IDF_5)=2.2301document1=0.688(TF-norm)*2.397(IDF_2)+0.376(TF-norm)*2.397
(IDF_5)=2.2301document1=0.688(TF-norm)*2.397(IDF_2)+0.376(TF-norm)*2.397
(IDF_5)=2.2301document1=0.688(TF-norm)*2.397(IDF_2)+0.376(TF-norm)*2.397 。 因此,文档3的排名高于其他文档。
(IDF_5)=2.2301
案例2-二进制表示
情况2与电影推荐系统有关,原始数据如下。 用户1的特征是,-1与不相同,并且空白为未知。 我们想知道用户看哪部电影是正面的还是负面的。

- 正常化
如果我们首先计算TF,即1+logx则它将获得相同的值。1+log1=1和TF(0)=0。 我们假设每个项目的电影总数为10,000。

- 计算用户向量
通过使用内部乘积(交叉User1, User2和Comedy, Thriller, Romance, Action, Drama)计算用户向量
User2的值1.28445705为inner(User2, Action)=1*0.577+1*0.707

- 预测用户的口味
Predict User2 (1.8164965)的值是inner(IDF,User2, Mission: Impossible)
