关键字不能为空!

确定

百度视觉技术又折桂冠,应用落地四处开花

2018-06-28

  近日,百度视觉技术团队凭借领先的图像识别和视频理解技术在全球两大视觉竞赛 WebVision 和 ActivityNet 中分别击败100多家参赛单位和队伍,获得多项世界第一,并受邀在全球视觉技术领域顶级学术会议 CVPR(IEEE 国际计算机视觉与模式识别会议)上做报告分享。这是继今年3月人脸检测深度学习算法 PyramidBox 在世界最权威人脸检测公开评测集 WIDER FACE 中刷新业内最好成绩后,百度视觉技术团队又一次在国际知名赛事中折桂。

  WebVision 是2017年以来新的大规模图像识别任务权威挑战赛事,其数据量超过 ImageNet。相较于 ImageNet 竞赛数据,WebVision 竞赛的数据集直接从互联网爬取,未经人工标注或筛选,识别难度大,但同时也更贴近实际场景。

  本次竞赛中,主办方将数据集合由1000类扩大到5000类,训练数据量由240万张图片扩大到1600万张图片,数据量更庞大,识别难度大幅提高。WebVision 今年共吸引了全球100多支团队参加,涵盖众多顶尖科技公司和知名高校,百度以领先第二名3.95个绝对百分点的优异成绩获得WebVision 竞赛冠军。

  图像识别是计算机视觉重要的基础问题之一。百度视觉技术团队从2013年起开始构建超大规模的图像分类系统,目前已构建起包含10万类 Tag(标签),近亿图片的训练系统。分类技术是视觉信息提取的基础技术能力,在百度已为搜索、feed、凤巢等众多我厂核心产品线赋能,收益显著。同时也为华为、小米等国内一流手机厂商提供精准的物体识别,获得广泛好评。

  ActivityNet 是目前视频理解领域影响力最大的赛事,与每年的顶级学术会议 CVPR 一起召开,今年共举办6项比赛。视觉技术团队从去年开始布局视频理解方向,迅速建立其自己在该领域的世界影响力。在今年的比赛中,视觉技术团队击败众多参赛单位和队伍,突破性获得两项任务冠军,相关技术论文也发表在 CVPR、AAAI 等顶级学术会议。值得注意的是,除了动作识别任务蝉联冠军外,动作片段判断 Proposal也第一次站在世界领先的位置。

  其中,Kinetics 视频动作识别任务是业界最权威的视频分类数据集,百度连续两年斩获该项任务冠军,并将平均错误率由12.4%降至10.9%。Kinetics 数据集包含40万训练短视频语料,400个类别,今年主办方将数据集由400类扩大到600类,训练数据从40万增加到50万,包含的标签均为人类日常行为,更贴近实际。

  此外,百度在动作片段判断 Proposal也第一次站在世界领先的位置,AUC 领先第二名1.6个绝对百分点。

  视频理解技术作为愈发重要的视觉技术,可以深度解析视频语义内容,输出视频相应元素,能够辅助人工审核编辑,提升精准用户推荐,以及丰富视频内容生产。对内业务上,视频理解技术一直强力支持Feed、移动搜索、好看、Nani等视频业务方。在Feed短视频分类上,我们将一级类准确率从72%提升到98%,二级分类从62%提升到94%。目前百度的员工可以使用10余项技术能力,包括视频分类、视频比对、视频标签,视频语义向量,视频静态/动态封面、超分辨率、人像分割等。

  长久以来,百度长期注重研发领先且实用的视觉技术。百度享誉盛名的OCR(文字识别)技术近年来多次在ICDAR竞赛数据集最具挑战的竞赛任务“Incidental Scene Text(自然场景随拍文字识别)”的检测、识别和端到端等评测中获得世界第一,为内部数百条业务线提供业界一流的多种OCR技术(通用识别、卡证识别、票据识别、端上识别等)。

  为促进视觉技术的无障碍应用,视觉技术团队不断打造内部河图和外部生态的视觉技术平台建设。在河图上,每天服务数百度几百条业务线,在线调用量逾数亿。在打造外部AI生态上,我们已经开放了人脸识别、文字识别(OCR)、图像审核、图像识别、图像搜索等5大类、58项基础能力,目前已服务于几十万开发者,着力打造金融、保险、媒体等场景应用。我们会持续赋能,推动我厂人工智能技术产品的快速落地。