知道怎么实现一个延迟队列吗？

发布时间：2021-02-07 17:23:26 所属栏目：运营来源：互联网

导读：预训练建好词表后，模型只需在有少量共同物体的配对图文的数据上进行微调，模型就能自动生成通用的模板语句，使用时，即使出现没见过的词，也能从容应对，相当于把图片和描述的各部分解耦了。所以VIVO既能利用预训练强大的物体识别能力，也能够利用模板的通

预训练建好词表后，模型只需在有少量共同物体的配对图文的数据上进行微调，模型就能自动生成通用的模板语句，使用时，即使出现没见过的词，也能从容应对，相当于把图片和描述的各部分解耦了。

所以VIVO既能利用预训练强大的物体识别能力，也能够利用模板的通用性，从而应对新出现的物体。

Azure AI 认知服务首席技术官黄学东解释说，视觉词表的预训练类似于让孩子们先用一本图画书来阅读，这本图画书将单个单词与图像联系起来，比如一个苹果的图片下面有个单词apple，一只猫的图片下面有个单词cat。

视觉词表的预训练本质上就是训练系统完成这种动作记忆。

目前，VIVO 在 nocaps 挑战中取得了 SOTA效果，并首次超越人类表现。

模板生成方法，在简单场景下可以使用，但无法捕捉深层次的图像文本关系，而基于Transformer的模型又需要海量的标注数据，所以不适合nocaps。

为解决这些问题，微软认知服务团队的研究人员提出了一种名为视觉词表预训练（Visual Vocabulary Pre-training，简称VIVO）的解决方案。

无需配对图文数据，VIVO看图说话夺冠nocaps首次超越人类

VIVO可以在没有文本标签的数据上进行文本和图像的多模态预训练，摆脱了对配对图文数据的依赖，可以直接利用ImageNet等数据集的类别标签。借助VIVO，模型可以学习到物体的视觉外表和语义之间的关系，建立视觉词表。

这个视觉词表是啥呢？其实就是一个图像和文本的联合特征空间，在这个特征空间中，语义相近的词会聚类到一起，如金毛和牧羊犬，手风琴和乐器等。

能看图会说话的AI，表现还超过了人类？最近，Azure悄然上线了一个新的人工智能服务，能精准的说出图片中的内容。而背后的视觉词表技术，更是超越了基于Transformer的前辈们，拿到nocaps挑战赛冠军。

有没有发现，搜索出来的图片有时相关性很差？

现在很多搜索引擎都是基于图片的文本标签，但是我们的世界每天产生不计其数的照片，很多都没有标记直接传到了网上，给图片搜索带来了很多混乱。

如果系统能自动给图片加上精准的描述，图像搜索的效率将大为提高。

看图说话（或者叫图像描述），近年来受到了很多关注，它可以自动生成图片描述。但是目前无论是学术界还是工业界，做的效果都差强人意。

看图说话系统一方面需要计算机视觉进行图像的识别，另一方面需要自然语言来描述识别到的物体。带标签的图片可以针对性训练，那如果出现了从未标注的新物体，系统是不是就失效了？

这个问题困扰了人们很久，即描述清楚一个新出现的东西。

人工智能领域验证一个模型的好坏，通常会用一个基准测试。比如NLP方向会用GLUE、SuperGLUE等，图像识别会用ImageNet等。

（编辑：惠州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!