客户建议-基于内容

基本术语

词频(TF)

TF只是文档中单词的出现频率。

其中x表示文档d的值,项目t的值。

反文档频率(IDF)

IDF是整个文档集中文档频率的倒数。

其中N表示文档数量, DF表示其中我们看到此项t出现的文档数量。

特遣部队

使用TF-IDF的主要原因是两个原因:假设我们在Google上搜索“分析的兴起” 可以肯定的是,“ the”的出现频率要比“ analytics”高,分析的相对重要性高于搜索查询的观点。

案例1 — TF-IDF

原始数据如下,我们按照三个步骤来计算余弦相似度。

案例原始数据
  • 计算词频

计算TF的值
  • 计算IDF(假设文档总数为50,000)

计算IDF的值
  • 正常化
    首先计算向量的长度,然后将每个值除以长度。

归一化之前

Document1-Analytics的值= 1.69897 / 3.45503 = 0.4917375。

归一化后

到目前为止,我们可以计算两个文档的余弦相似度。

  • 项目的最终值(乘以TF-norm和IDF)。

如果搜索“文件洞察力” ,则每个文档的值如下。

搜索的价值

document1=0.688(TF-norm)*2.397(IDF_2)+0.376(TF-norm)*2.397
(IDF_5)=2.2301
的值document1=0.688(TF-norm)*2.397(IDF_2)+0.376(TF-norm)*2.397
(IDF_5)=2.2301
document1=0.688(TF-norm)*2.397(IDF_2)+0.376(TF-norm)*2.397
(IDF_5)=2.2301
document1=0.688(TF-norm)*2.397(IDF_2)+0.376(TF-norm)*2.397
(IDF_5)=2.2301
。 因此,文档3的排名高于其他文档。

案例2-二进制表示

情况2与电影推荐系统有关,原始数据如下。 用户1的特征是,-1与不相同,并且空白为未知。 我们想知道用户看哪部电影是正面的还是负面的。

电影推荐系统
  • 正常化
    如果我们首先计算TF,即1+logx则它将获得相同的值。 1+log1=1TF(0)=0 。 我们假设每个项目的电影总数为10,000。

归一化后
  • 计算用户向量
    通过使用内部乘积(交叉User1, User2Comedy, Thriller, Romance, Action, Drama )计算用户向量
    User2的值1.28445705inner(User2, Action)=1*0.577+1*0.707

计算用户向量
  • 预测用户的口味
    Predict User2 (1.8164965)的值是inner(IDF,User2, Mission: Impossible)

预测用户的口味