知道怎么实现一个延迟队列吗 ?
预训练建好词表后,模型只需在有少量共同物体的配对图文的数据上进行微调,模型就能自动生成通用的模板语句,使用时,即使出现没见过的词,也能从容应对,相当于把图片和描述的各部分解耦了。 所以VIVO既能利用预训练强大的物体识别能力,也能够利用模板的通用性,从而应对新出现的物体。 Azure AI 认知服务首席技术官黄学东解释说,视觉词表的预训练类似于让孩子们先用一本图画书来阅读,这本图画书将单个单词与图像联系起来,比如一个苹果的图片下面有个单词apple,一只猫的图片下面有个单词cat。 视觉词表的预训练本质上就是训练系统完成这种动作记忆。
目前,VIVO 在 nocaps 挑战中取得了 SOTA效果,并首次超越人类表现。 模板生成方法,在简单场景下可以使用,但无法捕捉深层次的图像文本关系,而基于Transformer的模型又需要海量的标注数据,所以不适合nocaps。 为解决这些问题,微软认知服务团队的研究人员提出了一种名为视觉词表预训练(Visual Vocabulary Pre-training,简称VIVO)的解决方案。
无需配对图文数据,VIVO看图说话夺冠nocaps首次超越人类VIVO可以在没有文本标签的数据上进行文本和图像的多模态预训练,摆脱了对配对图文数据的依赖,可以直接利用ImageNet等数据集的类别标签。借助VIVO,模型可以学习到物体的视觉外表和语义之间的关系,建立视觉词表。
这个视觉词表是啥呢?其实就是一个图像和文本的联合特征空间,在这个特征空间中,语义相近的词会聚类到一起,如金毛和牧羊犬,手风琴和乐器等。 能看图会说话的AI,表现还超过了人类?最近,Azure悄然上线了一个新的人工智能服务,能精准的说出图片中的内容。而背后的视觉词表技术,更是超越了基于Transformer的前辈们,拿到nocaps挑战赛冠军。 有没有发现,搜索出来的图片有时相关性很差? 现在很多搜索引擎都是基于图片的文本标签,但是我们的世界每天产生不计其数的照片,很多都没有标记直接传到了网上,给图片搜索带来了很多混乱。 如果系统能自动给图片加上精准的描述,图像搜索的效率将大为提高。
看图说话的AI:基于模板和Transformer都不尽如人意看图说话(或者叫图像描述),近年来受到了很多关注,它可以自动生成图片描述。但是目前无论是学术界还是工业界,做的效果都差强人意。 看图说话系统一方面需要计算机视觉进行图像的识别,另一方面需要自然语言来描述识别到的物体。带标签的图片可以针对性训练,那如果出现了从未标注的新物体,系统是不是就失效了? 这个问题困扰了人们很久,即描述清楚一个新出现的东西。
人工智能领域验证一个模型的好坏,通常会用一个基准测试。比如NLP方向会用GLUE、SuperGLUE等,图像识别会用ImageNet等。 (编辑:惠州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |