二维码

bble不休的力量– Primer AI如何从大量文档中挖掘出宝贵的见解

1591 人阅读 | 时间:2020年09月22日 21:06

每天都有大量的新文本产生。数以百万计的每日新闻文章,博客文章和社交媒体构成了大量文件,这些文件将使普通人终生无法阅读。谁能在这条新信息之流上保持领先地位?更重要的是,您如何…

bble不休的力量– Primer AI如何从大量文档中挖掘出宝贵的见解

每天都有大量的新文本产生。数以百万计的每日新闻文章,博客文章和社交媒体构成了大量文件,这些文件将使普通人终生无法阅读。谁能在这条新信息之流上保持领先地位?更重要的是,您如何才能将信号与噪声分开,专注于重要的信息而忽略其余信息? 

 
总部位于硅谷的75人创业公司Primer AI的团队认为,人工智能就是答案。他们精心设计了机器学习系统,该系统以极大的速度阅读文档,了解哪些位是给定客户的重要信息,然后生成一份报告,总结关键发现。

Primer产品工程副总裁兼创始团队成员Amy Heineike表示:“我一直很好奇我们如何使用算法和大规模数据来更好地了解我们周围的世界。” 在专注于语言世界之前,Heineike是一位数学家,花了多年的时间设计大城市的模型,研究人们如何在这些城市生态系统的经济系统中相互作用。她喜欢这项工作,但经常因缺乏可靠的数据而感到沮丧。她所依赖的人口普查信息很少,并且不经常更新。新语种不断在新闻通讯社,金融终端和科学期刊中不断涌动,感觉就像是一座潜在的金矿。

一开始尚不清楚他们是否能够生成文本作为该信息的接口。“在最初的几年中,我们进行了深入的实验,然后在墙上砸了很多意大利面,”海涅克笑着回忆道。“因此,基本上要吸收大量的文字,弄清楚什么是重要的,然后算出要说的话。尚不清楚是否有可能甚至正确地做。我的丈夫,在Primer的前三个月里,认为我们应该建立图表。”

In-Q-Tel是最早接触Primer的客户之一,In-Q-Tel是一家来自CIA的风险投资公司,是高科技创业公司和国家安全机构之间的桥梁。当时,该团队只有五个人,但它利用了自然语言处理(NLP)和自然语言生成(NLG)领域中发生的许多重大突破。“我们根据一个月内扫描的成千上万份文档汇总了摘要。我们的系统吐出一份易于阅读和识别关键事件的报告。甚至我丈夫也不得不承认这很酷。”

Primer的数据科学家之一William Du生动地回忆了他在这项技术上的第一次经历。“我走进去,面试官问我想学什么。那天早晨,我从新闻中随机挑选了一些东西,那是朝鲜试射一枚导弹。系统吐出这一页摘要。它有很多很好的细节,很容易理解。然后我们在引擎盖下偷看了一下它是如何工作的,我意识到它在几分钟内就分析了成千上万的文章。”

建立摘要比听起来困难。Du解释说:“当您查看该领域的一些前沿技术时,它们在工作时会令人赞叹,但有时您会变得完全不知所措。” “因此,我们面临的挑战是找到一种在稳定性和复杂性之间取得正确平衡的算法。”

在他最近的工作中,Du面临着将模型应用于不断发展的内容流的挑战。即使引入新的术语,算法也需要对文档进行分类。“我们希望推动的未来是一种表示形式,它将允许引入新单词,即使该模型不具有单词的特定语义含义,该模型仍可以从文档中获取含义。 ”

文档表示使该公司的算法能够很好地执行一系列任务,例如分类,汇总和命名实体解析。“在前进的过程中,我认为令我感到非常兴奋的是,整个公司真正感到兴奋的是,在这个深度学习和深度表示的新世界中,我们如何继续前进?”

在涉足国家安全领域之后,Primer已扩展到法律和金融市场的客户。对冲基金和银行利用对新闻稿和监管文件的扫描来获取可用于交易的数据。此外,即使只有几页包含与该案有关的信息,律师事务所在准备审判时也常常要经过数百万个文档。Primer的系统可以帮助加快法律报告的发现,分析和生成。

Primer的高级数据科学家兼工程经理Anna Venancio-Marques从化学博士学位进入了科技创业公司的世界。“就目前而言,就学术而言,NLP的活动正爆满。在2018年,开发了许多非常具有革命性的模型,” Venancio-Marques解释说。“知名人士之一是Google的BERT。他们能够以过去从未有过的水平完成许多标准任务。该行业正在密切跟踪学术界,我们目前正在努力将BERT模型引入我们的生产系统。”

长期以来,深度学习系统的最大突破都集中在图像识别上,但是Primer和其他人认为这正在发生变化。“我们看到很多从图片中学到的东西都来自文本。迁移学习就是其中之一,学习一组问题,然后将其转移到另一组。我们也能够在自然语言处理中做到这一点,真是令人兴奋。” Venancio-Marques说。“在图像世界中一直是奇迹,因此进入文本世界真是太棒了。”

要了解有关Primer的更多信息,请查看他们的博客或听这段视频中的CEO 要了解有关Primer如何使用Stack Overflow for Teams快速扩展和加速其软件开发过程的更多信息,请查看此内容。案例研究

©著作权归作者所有:来自ZhiKuGroup博客作者没文化的原创作品,如需转载,请注明出处,否则将追究法律责任 来源:ZhiKuGroup博客,欢迎分享。

评论专区
  • 昵 称必填
  • 邮 箱选填
  • 网 址选填
◎已有 0 人评论
搜索
作者介绍
30天热门
×
×
本站会员尊享VIP特权,现在就加入我们吧!登录注册×
»
会员登录
新用户注册
×
会员注册
已有账号登录
×