二维码

一些公司如何解决语言和AI问题

1391 人阅读 | 时间:2021年01月05日 11:18

与AI进行语言交互需要AI软件具有详细的功能,以便能够理解口语。这里是一些挑战和解决方案。

一些公司如何解决语言和AI问题


图片:iStock / metamorworks


请参阅:
TechRepublic Premium编辑日历:IT策略,清单,工具包和研究以供下载(TechRepublic Premium)作为一个长期的混混者,让
亚马逊的Alexa理解我的命令给我带来了一些重大挑战我发现我必须说得很清楚,而且我对北美的口音很淡淡。对于我的马萨诸塞州土著朋友来说,情况更糟,他们的波士顿口音很浓。

显然,Alexa是基本的消费者级人工智能(AI)产品,但是在业务中使用AI要求更高的标准。能够正确输入AI软件可以持续理解的语言对于公司在此类产品上的投资回报至关重要。

我谈到了语言的概念,语言如何与AI交互以及语言识别软件开发公司Speechmatics的产品副总裁Ian Firth和AI开发平台Paperspace的联合创始人Dan Kobran的话题。

斯科特·马特森(Scott Matteson):人工智能的口音差距是多少,它将带来哪些挑战? 

伊恩·费斯(Ian Firth):即使他们来自同一城市或国家/地区,即使语言是相同的,人们也经常会很难沟通。单一语言中的重音和方言种类繁多,要想以人类的方式理解它们,本身就是一个挑战。 

当涉及自动语音识别(ASR)技术时,同样适用。该引擎需要了解多种口音,方言,甚至是一种语言中的语。为了从人们所说的东西(作为人类或ASR引擎)中获取价值,您需要了解所说的东西。  

口音和方言增加了交流的障碍。对于ASR技术,需要以简单易懂的方式理解语音并采取行动。语音技术面临的挑战是打破语言障碍,并为对话或讲话者提供理解,语境和价值。 

Scott Matteson:涉及哪些可能的解决方案? 

伊恩·费斯(Ian Firth):要解决使用语言重音和方言的挑战,有两种可能的解决方案。  

首先,是制造一个语音识别引擎,该引擎设计用于最适合重音的语言模型。例如,这意味着为墨西哥西班牙语,西班牙语西班牙语等创建语言包。通过这种方法,您可以针对一种特定的口音获得极高的准确性,并且从学术上来说,在大多数情况下,您将获得非常准确的结果。这种方法需要正确的模型,正确的语音,并且在某些情况下此解决方案不起作用。  

请参阅: 自然语言处理:备忘单 (TechRepublic)

第二种解决方案是构建一个无上下文语音识别引擎,该引擎能够理解所有西班牙口音,而无论其地区,口音或方言如何。这种方法在以这种方式制造发动机的技术能力以及制造时间方面确实有其自身的挑战。但是,结果本身就是无懈可击的无缝用户和客户体验。  

Scott Matteson:从技术角度来看,解决方案是如何工作的? 

伊恩·弗斯(Ian Firth): ASR首次上市时只是一项技术,而不是产品。工程师会问自己:“我们如何从现有的仪器中获得最佳的精度结果?” 因此,传统上,ASR工程师仅将针对特定口音的解决方案视为解决此问题和口音差距的可行方法。从工程的角度来看,将问题限制为单个重音模型是有意义的,因为这是为特定重音或方言提供最佳准确性结果的最佳方法。  

这种方法还要求ASR提供者为特定市场建立特定模型。例如,一家医疗公司需要与公用事业公司完全不同的词汇,这在ASR技术方面提出了巨大的挑战。如果回头看1990年代后期,引擎需要用户将ASR训练到他们的声音,而不是引擎独立于说话者。 

随着计算机和机器学习 (ML)在过去10年中的改进和发展,ASR提供者已经能够扩大语音技术可能的范围。随着它被越来越广泛地采用,对于工程师来说,很显然,在他们使用该技术之前,您永远不会知道说话者的口音或方言,而仅是该语言。那么如何选择正确的模型呢?随着采用率的提高和全球化程度的提高,您必须做出假设和最佳猜测,问题变得更加明显。  

我们如何解决这个问题?使用全面的语言模型,您可能无法获得特定说话人的最佳准确性,但是您可能会获得针对该特定语言的全面准确性。我们着手建立一个任何上下文的语音识别引擎,在其中我们可以建立与重音无关的语言模型。我们找到了一种构建占地空间足够小的语言模型的方法,这使我们的ASR在现实世界中可以使用。  

它不仅是机器学习背后的纯粹数学,还需要了解现实世界的适用性以及该技术如何为企业增加价值。  

请参阅:  Windows 10:用于语音识别和听写的语音命令列表 (TechRepublic)

Scott Matteson:对企业和消费者有什么好处? 

伊恩·费斯(Ian Firth):最终,与重音无关的方法对所有人都有益。该企业通过仅使用一种语言运行一种模型来降低成本,并且消费者每次都能被理解,因此获得了最佳的体验和价值。  

反过来,该解决方案也使ASR提供者受益。不断更新和改进语言模型是一项劳动密集型任务,因此减少语言模型的数量意味着ASR提供程序还可以为客户提供最佳的服务和技术。  

斯科特·马特森(Scott Matteson):趋势走向何方? 

伊恩·弗斯(Ian Firth):我仍然相信与重音无关的方法是解决语音识别中重音差距问题的正确解决方案。我们不能指望消费者会改变他们的口音或方言以适应一种语言模型-ASR提供者对此负责。  

在Speechmatics,我们现在已经创建了全球英语和西班牙语,并且我们将继续推出全球语言。我们希望尽可能地建立一种全球语言,并且随着ASR变得越来越准确,我们将继续使其成为可能。  

重要的是要注意,从成本,构建和消费者体验的角度来看,继续构建更多针对特定口音的语言包是不可持续的。ASR正在作为一个行业发展,并将随着越来越多的世界每个人都需要语音技术的支持而不断发展。由于今年的COVID-19以及字幕,转录,监控,资产管理,网络会议,联系中心分析等用例的采用率,这种情况变得更加明显和加速。   

Scott Matteson:什么是自然语言理解?

丹·科布兰(Dan Kobran):自然语言理解是AI的子主题,它基本上意味着阅读理解。之所以成为名人副主题,是因为解决NLU与解决广义AI并没有真正的区别。因此,当我们谈论NLU的梦想时,我们实际上是在谈论AI本身的梦想:匹配并增强人类智能。 

斯科特·马特森(Scott Matteson):这些天为什么大肆宣传?

Dan Kobran: NLU并不新鲜。数十年来,我们一直在努力寻找如何使机器理解无限多种人类语言的方法。最新消息是,有一些伟大的新支持技术正在展现出巨大的希望,并且我们在日常生活中越来越意识到NLU应用程序。现在,一些最常见的生产应用程序包括Internet上不同语言之间的文本机器翻译,Siri或Alexa等智能助手的问题解答以及在电话或聊天中针对客户请求的情感分析。

斯科特·马特森(Scott Matteson):从AI从业者的角度来看,什么使NLU更具挑战性?

Dan Kobran:语言很难!我们说的是字面的或默契的,或者只是勉强暗示或暗示或暗示它们,或将它们留在句子之间的空白处,这是无限的。语言是思想的代表(尽管可能是有损的),而且学习ML模型的知识很多。这就是为什么NLU不能通过某些突破性的单一算法来解决,而是通过通用AI来解决的原因,因为语言的复杂性通常可以代替智能的复杂性。 

Scott Matteson:什么是OpenAI的GPT-3,它如何工作?有什么好处和要求?

Dan Kobran: GPT-3是一种语言模型,已经针对175B参数进行了预训练,尤其擅长预测和生成文本。换句话说,它是一种语言模型,已经阅读了很多东西,并且可以使用该知识来预测输入后的下一步。更具体地说,它是一种转换器(某种基于神经网络的模型),它可以并行而不是按顺序处理数据而受益。因此,它易于使用,易于培训,并且已经具有一些惊人的功能。 

GPT-3的最显着特征是它能够从一开始就提供有用的文本生成输出,因为它经过了充分的预培训。在其他文本数据集上进行训练后,该模型将变得非常强大。例如,如果您输入“成为或不成为”,则可以将GPT-3开箱即用,并获得合理的答复。但是,如果您在数千行莎士比亚上训练模型,您会得到一些极其莎士比亚的东西。真的很棒 令人兴奋的部分是,写诗,韩语或Javascript代码也可以这么说–对模型而言,这确实无关紧要! 

斯科特·马特森(Scott Matteson):在行动中GPT-3的一些主观示例是什么?

丹·科布兰(Dan Kobran):由于OpenAI和Microsoft之间的许可协议,GPT-3不幸是封闭源。 

但是,已经出现了一些 激动人心的用例,包括自动电子邮件编写,语义编程(例如,以通俗的方式描述您希望应用程序执行的操作),会话式聊天机器人等。 

还有一些非常令人兴奋的可能性有待实现,例如对GPT-3进行医学文献培训,以为医生和健康研究人员建立参考或Q&A机器人。

斯科特·马特森(Scott Matteson):您认为GPT-3可以用于主流了吗?

丹·科布兰(Dan Kobran): GPT-3在参数训练方面比GPT-2多两个数量级,因此在某种程度上,相同的技术仅得到了极大的改进。

显然,GPT-3现已为需要通用语言模型的狭窄用例做好了准备,但除此之外,GPT-3还不具备上下文感知能力,因此其基本功能和应用受到限制。 

斯科特·马特森(Scott Matteson): 为了使GPT-3或与此相关的任何NLU框架在当今的企业环境中真正发挥作用,需要做什么?

丹·科布兰(Dan Kobran):正如Yann LeCun教授 最近指出的那样,GPT-3并不是有知觉的智力。这是一种语言模型,可以一次生成一个单词的句子。GPT-3实际上并不了解周围的世界,也不了解语言以外的任何事物。 

但是GPT-3是迈向实用AI的一大步。今天它已经对某些文本生成应用程序有用,但是对浅层深度的缺乏了解是限制其今天用途的因素。


取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

©著作权归作者所有:来自ZhiKuGroup博客作者没文化的原创作品,如需转载,请注明出处,否则将追究法律责任 来源:ZhiKuGroup博客,欢迎分享。

评论专区
  • 昵 称必填
  • 邮 箱选填
  • 网 址选填
◎已有 0 人评论
搜索
作者介绍
30天热门
×
×
关闭广告
关闭广告
本站会员尊享VIP特权,现在就加入我们吧!登录注册×
»
会员登录
新用户注册
×
会员注册
已有账号登录
×