
从混乱到有序的信息管理与分析
两年前,我们在BioSeek发起了一个雄心勃勃的项目,旨在极大地改善科学家搜索文献和过程数据的方式。 一路上,我们意识到在其他信息领域也非常需要我们的技术。 我们现在正在与美国投资银行CRM解决方案的领先供应商之一合作,针对客户的特定用例调整我们的解决方案。
必须驯服非结构化数据
每个公司都积累了大量重要的但结构化的数据电子邮件和文档。 它们中包含的信息是“睡眠中”:无法自动处理。 下图清楚地表明,处理非结构化数据变得越来越重要和紧迫 。

用例:
您收到了一封有关交付问题的电子邮件:提到发票编号,提货单,客户,项目名称,地点等。这些信息托管在公司使用的不同软件系统中。 要对此电子邮件采取行动,就需要导航到其他站点/程序。 当图片中有附件时,事情变得更加耗时。
我们的技术扫描电子邮件和附件的内容,索引包含与客户公司的特定数据库以及选定的外部来源(例如美国证券交易委员会或Crunchbase)相匹配的实体的索引。 每个实体都表示为一张卡片,这是一个可操作的对象,可让您查看与其有关的所有信息。
根据 研究 ,电子邮件是最糟糕的生产力消耗之一。 众多的通信渠道和外部资源使访问操作信息变得困难。 匹配的信息详细信息使已经要求苛刻的各种行业工人的日常工作增加了一层复杂性。 节省时间 和提高 员工的生产率 对于企业的繁荣变得越来越重要。
我们的技术充当不同数据结构之间的粘合剂。 它可以合并数据,从而轻松利用来自不同信息池的信息, 而无需从已采用的软件系统进行迁移 。 这是一个功能强大的生产力工具,可以与公司使用的任何信息源和软件解决方案集成。 我们扫描电子邮件( 包括附件) ,从400多种文件类型(包括PDF )中提取文本,并且在不强迫您离开上下文的情况下,向您显示所有检测到的实体的列表,这些实体都可视化为卡片。 正如我们已经说过的, 这些 卡片是可行的 -您可以在给定的网站上搜索实体,也可以将实体包含在新文档中。 这些操作是可定制的 -它们根据客户组织的特定需求而变化。 例如,您可以选择将发票标记为已付款的选项,如果这是您的特定需要,则此选项将添加到选项菜单中,以便您可以通过单击电子邮件中引用的发票编号直接打开发票,并 在您的自定义操作菜单中将 “ 将发票标记为已付款 ”。
选择一组相关数据的可能性甚至可以进一步加快分析过程-例如,市场部门不需要基因相关数据,研发部门也不需要发票信息。 我们采用了一种多态方法,可以为每个用户提供无缝的体验。
图数据库和语义搜索算法是我们解决方案的两个技术支柱。 应用程序域是引入图数据库的实体的功能。
在其他领域的应用:法律,在线购物,列表正在增长
法律文本和行政文件
如上例所示,我们的技术在文本中标记了相关实体,并提供了有关它们的更多信息。 例如,对于法律文本,合同和协议,您可以轻松地查看合同中引用的特定法律的全文。 在此示例中,文字以西里尔字母书写-我们的技术非常灵活,可以轻松地适应不同的字母:

将每个PDF目录转换为购物平台
产品名称,代码,型号成为链接-目录的内容可直接购买,从而节省了很多时间:

BioSeek —科学的搜索引擎—是起点
在本文中,您可以阅读有关BioSeek(科学搜索平台)的更多信息。
这是一个演示视频,展示了在科学背景下的增强搜索,《 自然》杂志和NCBI :
正在运行的文档阅读器:

为什么这会改变大企业的游戏规则
举例来说,一家可口可乐公司的员工每天可以节省仅一个小时的时间,该公司总共有大约62 000名员工,如果每天整天有45000名员工每天平均在计算机前工作,则总共可以节省260名每年的工作日,我们将为公司节省1170万工时 。
包装起来:
- 我们连接外部和内部的各种数据源;
- 我们不会改变组织内部现有的软件架构;
- 我们可以使用所有语言处理所有知识领域。
我们技术的美丽在于其效率,灵活性和广泛的应用范围。 我们可以适应不同的结构和行业,并显着提高其中的生产力。