网络信息过滤的简短介绍
信息饱和并不是新事物。 在90年代初,“由于越来越多的电子邮件使用,用户被大量传入文档淹没”。 因此,施乐帕洛阿尔托研究中心(PARC)的四名研究人员决定解决这个问题。

由David Goldberg领导的小组建立了一个革命性的邮件和存储系统,称为Tapestry。 它使您可以根据文档内容和其他用户记录的反应进行搜索。 例如,您可以要求它“给我所有包含用户”威廉”认为是“优秀”的“赛车”的文档”。
该实验基于以下信念:“ 当人类参与过滤过程时 , 信息过滤会更加有效”。
协同过滤
他们的研究论文《 使用协作过滤编织信息挂毯 》于1992年发表。 与当时的过滤系统不同,Tapestry的输出不仅是通过检查物品到达时的计算得出的,还需要连续查询人工注释。
如今,过滤系统已被称为推荐系统,但协作过滤的思想确实仍然是其中许多驱动力之一。 (请参阅Amazon,Pinterest和Spotify。)
协作过滤基于这样的思想,即过去对某些项目进行评估的人可能会在将来再次达成一致。
Tapestry是一个手动协作过滤系统-您必须选择自己的专家,其注释要添加到组合中。
当前,大多数协作过滤算法都采用邻域方法。 在此技术中,将根据与您的相似性来选择多个对等方。 然后,通过计算这些“最近邻居”的评分的加权平均值来提出建议。

通过向您展示您可能会喜欢的新东西,协作过滤有望增加您消费的多样性 。 但是,某些使用此方法的推荐系统可能会将您困在您的利基社区中,而相反。
强调这一点的挑战之一是新项目问题。 协作过滤器会根据过去的注释进行推荐,因此对于历史数据有限的项目,它们无法做出明智的预测。 这可以为那些受欢迎的商品带来越来越丰富的效果。 这种偏见可能会阻止您与具有重大价值和兴趣的项目之间的匹配。
基于内容的过滤
新项目问题不限制基于内容的筛选,这是推荐的另一种主要方法。 这是因为基于内容的过滤是基于项目的描述符或术语集而不是其注释。
对于Tapestry(它也使用基于内容的过滤),项目集由每个项目中出现的单词组成。 由于自然语言处理的发展,我们现在也可以生成关键字,实体和高级概念并将其添加到集合中。
基于内容的过滤建议根据项目的术语集和用户个人资料之间的比较来建议。 您的个人资料用相同的术语表示,并通过分析您看到的项目的内容来建立。
人类参与
正如Tapestry在90年代揭示的那样,将基于内容的过滤和协作过滤相结合的系统试图利用内容的表示以及用户之间的相似性。 这种常见的混合方法将两个输出合并或单独使用,例如在不同的Web模块之间使用。
近年来,越来越多的企业和个人看到了当前推荐器系统设置的局限性和不利影响。 他们尚未解决发现问题。
幸运的是,对推荐系统的研究仍然活跃。 所谓的基于知识的方法已经有了很大的发展,其中根据用户的需求或手头的任务将项目与用户匹配。 此外,促进媒体多样性的实验正在兴起。
25年前,Goldberg写道,当人类参与算法过程时,信息过滤会更加有效。 我们认为,现在比以往任何时候都更加正确。 让人们真正参与进来。 让我们努力提高推荐系统的透明度,使广泛的受众代理机构和不断改进的建议既有意义又具有挑战性。