官方微信视频号
人工智能是一种引发诸多领域产生颠覆性变革的前沿技术,当今的人工智能技术以机器学习,特别是深度学习为核心,在视觉、语音、自然语言等应用领域迅速发展。我国高度重视人工智能产业的发展,从2016 年起多个国家层面的政策出台支持人工智能发展。如今我国逐渐形成了涵盖计算芯片、开源平台、基础应用、行业应用及产品等环节较完善的人工智能产业链。
2018年由中国信息通信研究院和中国人工智能产业发展联盟联合发表《人工智能发展白皮书技术架构篇》,从产业发展的角度,选择以深度学习算法驱动的人工智能技术为主线,分析作为人工智能发展“三驾马车”的算法、算力和数据的技术现状、问题以及趋势,并对智能语音、语义理解、计算机视觉等基础应用技术进行分析,并提出了目前存在的问题和技术的发展趋势。
本文就“基于深度学习的基础应用技术现状”板块做详细描述。
▍基于深度学习的基础应用技术现状
目前随着深度学习算法工程化实现效率的提升和成本的逐渐降低,一些基础应用技术逐渐成熟,如智能语音,自然语言处理和计算机视觉等,并形成相应的产业化能力和各种成熟的商业化落地。同时,业界也开始探索深度学习在艺术创作、路径优化、生物信息学相关技术中的实现与应用,并已经取得了瞩目的成果。
本章主要分析目前商业较为成熟的智能语音、自然语言处理和计算机视觉技术的情况,如图所示,每个基础应用技术各分为若干应用类别。
基础应用架构图
一、智能语音技术改变人机交互模式
智能语音语义技术主要研究人机之间语音信息的处理问题。简单来说,就是让计算机、智能设备、家用电器等通过对语音进行分析、理解和合成,实现人“能听会说”、具备自然语言交流的能力。
1、智能语音技术概述
按机器在其中所发挥作用的不同,分为语音合成技术、语音识别技术、语音评测技术等。语音合成技术即让机器开口说话,通过机器自动将文字信息转化为语音,相当于机器的嘴巴;语音识别技术即让机器听懂人说话,通过机器自动将语音信号转化为文本及相关信息,相当于机器的耳朵;语音评测技术通过机器自动对发音进行评分、检错并给出矫正指导。此外,还有根据人的声音特征进行身份识别的声纹识别技术,可实现变声和声音模仿的语音转换技术,以及语音消噪和增强技术等。
2、智能语音产品和服务形态多样
智能语音技术会成为未来人机交互的新方式,将从多个应用形态成为未来人机交互的主要方式。智能音箱类产品提升家庭交互的便利性。
智能音箱是从被动播放音乐,过渡到主动获取信息、音乐和控制流量的入口。当前智能音箱以语音交互技术为核心,成为作为智能家庭设备的入口,不但能够连接和控制各类智能家居终端产品,而且加入了个性化服务,如订票、查询天气、播放音频等能力。
个人智能语音助手重塑了人机交互模式。个人语音助手,特别是嵌入到手机、智能手表、个人电脑等终端中的语音助手,将显著提升这类产品的易用性。如苹果虚拟语音助手Siri 与苹果智能家居平台Homekit 深度融合,用户可通过语音控制智能家居。Google Now 为用户提供关心的内容,如新闻、体育比赛、交通、天气等等。微软的Cortana 主要优势在于提升个人计算机的易用性。
以API 形式提供的智能语音服务成为行业用户的重要入口。智能语音API 主要提供语音语义相关的在线服务,可包括语音识别、语音合成、声纹识别、语音听转写等服务类型,并且可以嵌入到各类产品,服务或APP 中。在商业端,智能客服、教育(口语评测)、医疗(电子病历)、金融(业务办理)、安防、法律等领域需求强烈;在个人用户领域,智能手机、自动驾驶及辅助驾驶、传统家电、智能家居等领域需求强烈。
二、计算机视觉技术已在多个领域实现商业化落地
计算机视觉识别这一人工智能基础应用技术部分已达商业化应用水平,被用于身份识别、医学辅助诊断、自动驾驶等场景。
1、计算机视觉概述
一般来讲,计算机视觉主要分为图像分类、目标检测、目标跟踪和图像分割四大基本任务。
图像分类是指为输入图像分配类别标签。自2012年采用深度卷积网络方法设计的AlexNet 夺得ImageNet 竞赛冠军后,图像分类开始全面采用深度卷积网络。2015 年,微软提出的ResNet 采用残差思想,将输入中的一部分数据不经过神经网络而直接进入到输出中,解决了反向传播时的梯度弥散问题,从而使得网络深度达到152 层,将错误率降低到3.57%,远低于5.1%的人眼识别错误率,夺得了ImageNet 大赛的冠军。2017 年提出的DenseNet 采用密集连接的卷积神经网络,降低了模型的大小,提高了计算效率,且具有非常好的抗过拟合性能。
目标检测指用框标出物体的位置并给出物体的类别。2013年加州大学伯克利分校的Ross B. Girshick 提出RCNN 算法之后,基于卷积神经网络的目标检测成为主流。之后的检测算法主要分为两类,一是基于区域建议的目标检测算法,通过提取候选区域,对相应区域进行以深度学习方法为主的分类,如RCNN、Fast-RCNN、Faster-RCNN、SPP-net 和Mask R-CNN 等系列方法。二是基于回归的目标检测算法,如YOLO、SSD 和DenseBox 等。
目标跟踪指在视频中对某一物体进行连续标识。基于深度学习的跟踪方法,初期是通过把神经网络学习到的特征直接应用到相关滤波或Struck 的跟踪框架中,从而得到更好的跟踪结果,但同时也带来了计算量的增加。近期提出了端到端的跟踪框架,虽然与相关滤波等传统方法相比在性能上还较慢,但是这种端到端输出可以与其他的任务一起训练,特别是和检测分类网络相结合,在实际应用中有着广泛的前景。
图像分割指将图像细分为多个图像子区域。2015 年开始,以全卷积神经网络(FCN)为代表的一系列基于卷积神经网络的语义分割方法相继提出,不断提高图像语义分割精度,成为目前主流的图像语义分割方法。
2、计算机视觉技术应用领域广阔
在政策引导、技术创新、资本追逐以及消费需求的驱动下,基于深度学习的计算机视觉应用不断落地成熟,并出现了三大热点应用方向。
一是人脸识别抢先落地,开启“刷脸”新时代。目前,人脸识别已大规模应用到教育、交通、医疗、安防等行业领域及楼宇门禁、交通过检、公共区域监控、服务身份认证、个人终端设备解锁等特定场景。从2017 年春运,火车站开启了“刷脸”进站,通过摄像头采集旅客的人脸信息,与身份证人脸信息进行验证;2017 年9 月苹果公司发布的iPhone X 第一次将3D 人脸识别引入公众视线,迅速引发了“移动终端+人脸解锁”的布局风潮。
二是视频结构化崭露头角,拥有广阔应用前景。视频结构化就是将视频这种非结构化的数据中的目标贴上相对应的标签,变为可通过某种条件进行搜索的结构化数据。视频结构化技术的目标是实现以机器自动处理为主的视频信息处理和分析。
从应用前景看,视频监控技术所面临的巨大市场潜力为视频结构化描述提供了广阔的应用前景,很多行业需要实现机器自动处理和分析视频信息,提取实时监控视频或监控录像中的视频信息,并存储于中心数据库中。用户通过结构化视频合成回放,可以快捷的预览视频覆盖时间内的可疑事件和事件发生时间。
三是姿态识别让机器“察言观色”,带来全新人机交互体验。机器人研发在视觉人机交互方面,姿态识别实际上是人类形体语言交流的一种延伸。它的主要方式是通过对成像设备中获取的人体图像进行检测、识别和跟踪,并对人体行为进行理解和描述。从用户体验的角度来说,融合。
姿态识别的人机交互能产品够大幅度提升人机交流的自然性,削弱人们对鼠标和键盘的依赖,降低操控的复杂程度。从市场需求的角度来说,姿态识别在计算机游戏、机器人控制和家用电器控制等方面具有广阔的应用前景,市场空间十分可观。
三、自然语言处理成为语言交互技术的核心
自然语言处理(Natural Language Processing ,NLP)是研究计算机处理人类语言的一门技术,是机器理解并解释人类写作与说话方式的能力,也是人工智能初期发展的切入点和目前大家关注的焦点。
1、自然语言处理技术现状
自然语言处理主要步骤包括分词、词法分析、语法分析、语义分析等。其中,分词是指将文章或句子按含义,以词组的形式分开,其中英文因其语言格式天然进行了词汇分隔,而中文等语言则需要对词组进行拆分。
词法分析是指对各类语言的词头、词根、词尾进行拆分,各类语言中名词、动词、形容词、副词、介词进行分类,并对多种词义进行选择。语法分析是指通过语法树或其他算法,分析主语、谓语、宾语、定语、状语、补语等句子元素。语义分析是指通过选择词的正确含义,在正确句法的指导下,将句子的正确含义表达出来。
2、自然语言处理技术的应用方向
自然语言处理的应用方向主要有文本分类和聚类、信息检索和过滤、信息抽取、问答系统、机器翻译等方向。其中,文本分类和聚类主要是将文本按照关键字词做出统计,建造一个索引库,这样当有关键字词查询时,可以根据索引库快速地找到需要的内容。此方向是搜索引擎的基础。
信息检索和过滤是网络瞬时检查的应用范畴,在大流量的信息中寻找关键词,找到后对关键词做相应处理。信息抽取是为人们提供更有力的信息获取工具,直接从自然语言文本中抽取事实信息。机器翻译是当前非常热门的应用方向,目前微软、谷歌的新技术是翻译和记忆相结合,通过机器学习,将大量以往正确的翻译存储下来。谷歌使用深度学习技术,显著提升了翻译的性能与质量。