基本术语
词频(TF)
TF只是文档中单词的出现频率。
其中x表示文档d的值,项目t的值。
- 可以提高您的世界知识的书籍
- #ArtikelnyaJelita-Rekomendasi Media Baca yang Seru untuk Meningkatkan Minat Bacamu
- 我的夏季阅读清单
- 每周综述,第9期
- Ultracool矮人,以及本周的其他好东西
反文档频率(IDF)
IDF是整个文档集中文档频率的倒数。
其中N表示文档数量, DF表示其中我们看到此项t出现的文档数量。
特遣部队
使用TF-IDF的主要原因是两个原因:假设我们在Google上搜索“分析的兴起” 。 可以肯定的是,“ the”的出现频率要比“ analytics”高,但分析的相对重要性高于搜索查询的观点。
案例1 — TF-IDF
原始数据如下,我们按照三个步骤来计算余弦相似度。
- 计算词频
- 计算IDF(假设文档总数为50,000)
- 正常化
首先计算向量的长度,然后将每个值除以长度。
Document1-Analytics的值= 1.69897 / 3.45503 = 0.4917375。
到目前为止,我们可以计算两个文档的余弦相似度。
- 项目的最终值(乘以TF-norm和IDF)。
如果搜索“文件洞察力” ,则每个文档的值如下。
document1=0.688(TF-norm)*2.397(IDF_2)+0.376(TF-norm)*2.397
的值
(IDF_5)=2.2301document1=0.688(TF-norm)*2.397(IDF_2)+0.376(TF-norm)*2.397
(IDF_5)=2.2301document1=0.688(TF-norm)*2.397(IDF_2)+0.376(TF-norm)*2.397
(IDF_5)=2.2301document1=0.688(TF-norm)*2.397(IDF_2)+0.376(TF-norm)*2.397
。 因此,文档3的排名高于其他文档。
(IDF_5)=2.2301
案例2-二进制表示
情况2与电影推荐系统有关,原始数据如下。 用户1的特征是,-1与不相同,并且空白为未知。 我们想知道用户看哪部电影是正面的还是负面的。
- 正常化
如果我们首先计算TF,即1+logx
则它将获得相同的值。1+log1=1
和TF(0)=0
。 我们假设每个项目的电影总数为10,000。
- 计算用户向量
通过使用内部乘积(交叉User1, User2
和Comedy, Thriller, Romance, Action, Drama
)计算用户向量
User2的值1.28445705
为inner(User2, Action)=1*0.577+1*0.707
- 预测用户的口味
Predict User2 (1.8164965)
的值是inner(IDF,User2, Mission: Impossible)