你喜欢的 Go 第三方库

发布时间：2021-02-07 17:22:29 所属栏目：运营来源：互联网

导读：在今天的数字时代，认知智能的愿景也是开发一种能够像人一样学习和推理的技术，对各种情况和意图做出精准推断，进而做出合理的决策。在过去的五年里，我们已经在人工智能的很多领域实现了人类的平等地位，包括语音识别对话、机器翻译、问答对话、机器阅读理

在今天的数字时代，认知智能的愿景也是开发一种能够像人一样学习和推理的技术，对各种情况和意图做出精准推断，进而做出合理的决策。

在过去的五年里，我们已经在人工智能的很多领域实现了人类的平等地位，包括语音识别对话、机器翻译、问答对话、机器阅读理解和看图说话。

这五个突破让我们更有信心实现人工智能的飞跃，XYZ-Code将成为多感官和多语言学习的重要组成部分，最终让人工智能更像人类。

正如古登堡的印刷机革命性地改变了通信的过程，认知智能将帮助我们实现人工智能的伟大复兴。

看图说话体验链接：

认为要想获得更好的认知能力，三个要素至关重要，单语言文本（X）、音频或视觉等感觉信号（Y）和多语言（Z）。

在这三者的交汇处，有一种新魔法ーー XYZ-Code，可以创造出更强大的人工智能，能够更好地听、说、看和理解人类。

「我们相信 XYZ-Code正在实现我们的长期愿景: 跨领域、跨模式和跨语言学习。我们的目标是建立预先训练好的模型，这些模型可以学习大范围的下游人工智能任务的表示，就像今天人类所做的那样。」

黄学东团队从德国发明家约翰内斯·古登堡那里获得灵感，他在1440年发明了印刷机，使人类能够快速、大量地分享知识。作为历史上最重要的发明之一，古登堡的印刷机彻底改变了社会进化的方式。

黄学东认为，把VIVO的突破带到 Azure 上，为更广泛的客户群服务，不仅是研究上的突破，更重要的是将这一突破转化为 Azure 上的产品所花费的时间。

基于VIVO的小程序Seeing AI在苹果应用商店已经可以使用了，Azure也已经上线了免费API，供盲人或者视障人士免费使用。如果再加上Azure的翻译服务，看图说话可以支持80多种语言。

的确，有太多的实验室SOTA技术倒在了灰色的不断迭代中，没能完成它最初的使命。

看图说话只是认知智能的一小步，受古登堡印刷机启发开创新魔法

近年来，微软一直在寻求超越现有技术的人工智能。

作为 Azure 认知服务的首席技术官，黄学东所在的团队一直在探索，如何更全面、更人性化地来学习和理解这个世界。

IVO取得成功可不仅仅是挑战赛的SOTA，目前已经有了实际应用。

据世界卫生组织统计，各年龄段视力受损的人数估计有2.85亿人，其中3900万人是盲人。

实力受损的用户想要获取图片和视频中的信息，就要依靠自动生成的图片描述或字幕（或者进一步转化为语音），他们非常相信这些自动生成的描述，不管字幕是否有意义。

「理想情况下，每个人都应该在文档、网络、社交媒体中给图片添加描述，因为这样可以让盲人访问内容并参与对话。」但是，这很不现实，很多图片都没有对应的文本。

Azure AI 认知服务公司首席技术官黄学东说: 「看图说话是计算机视觉的核心能力之一，可以提供广泛的服务」。

现在VIVO看图说话的能力已经集成到了Azure AI中，任何人都可以将它集成到自己的视觉AI应用中。

（编辑：惠州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!