[分享] 人工智能化标准白皮书(3)
819 查看
1 回复
 楼主 | 发布于 2018-02-07 | 只看楼主
分享到:

3.1.4 人机交互

  人机交互主要研究人和计算机之间的信息交换,主要包括人到计算机和计算 机到人的两部分信息交换,是人工智能领域的重要的外围技术。人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。传统的人与计算机之间的信息交换主要依靠交互设备进行,主要包括键盘、鼠标、 操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据手套、压力笔等输入设备,以及打印机、绘图仪、显示器、头盔式显示器、音箱等输出设备。人机交互技术 除了传统的基本交互和图形交互外,还包括语音交互、情感交互、体感交互及脑 机交互等技术,以下对后四种与人工智能关联密切的典型交互手段进行介绍。

  (1)语音交互

  语音交互是一种高效的交互方式,是人以自然语音或机器合成语音同计算机 进行交互的综合性技术,结合了语言学、心理学、工程和计算机技术等领域的知 识。语音交互不仅要对语音识别和语音合成进行研究,还要对人在语音通道下的 交互机理、行为方式等进行研究。语音交互过程包括四部分:语音采集、语音识 别、语义理解和语音合成。语音采集完成音频的录入、采样及编码;语音识别完 成语音信息到机器可识别的文本信息的转化;语义理解根据语音识别转换后的文 本字符或命令完成相应的操作;语音合成完成文本信息到声音信息的转换。作为 人类沟通和获取信息最自然便捷的手段,语音交互比其他交互方式具备更多优势, 能为人机交互带来根本性变革,是大数据和认知计算时代未来发展的制高点,具 有广阔的发展前景和应用前景。

  (2)情感交互

  情感是一种高层次的信息传递,而情感交互是一种交互状态,它在表达功能 和信息时传递情感,勾起人们的记忆或内心的情愫。传统的人机交互无法理解和 适应人的情绪或心境,缺乏情感理解和表达能力,计算机难以具有类似人一样的 智能,也难以通过人机交互做到真正的和谐与自然。情感交互就是要赋予计算机 类似于人一样的观察、理解和生成各种情感的能力,最终使计算机像人一样能进 行自然、亲切和生动的交互。情感交互已经成为人工智能领域中的热点方向,旨 在让人机交互变得更加自然。目前,在情感交互信息的处理方式、情感描述方式、 情感数据获取和处理过程、情感表达方式等方面还有诸多技术挑战。

  (3)体感交互

  体感交互是个体不需要借助任何复杂的控制系统,以体感技术为基础,直接 通过肢体动作与周边数字设备装置和环境进行自然的交互。依照体感方式与原理 的不同,体感技术主要分为三类:惯性感测、光学感测以及光学联合感测。体感 交互通常由运动追踪、手势识别、运动捕捉、面部表情识别等一系列技术支撑。与其他交互手段相比,体感交互技术无论是硬件还是软件方面都有了较大的提升, 交互设备向小型化、便携化、使用方便化等方面发展,大大降低了对用户的约束, 使得交互过程更加自然。目前,体感交互在游戏娱乐、医疗辅助与康复、全自动 三维建模、辅助购物、眼动仪等领域有了较为广泛的应用。

  (4)脑机交互

  脑机交互又称为脑机接口,指不依赖于外围神经和肌肉等神经通道,直接实 现大脑与外界信息传递的通路。脑机接口系统检测中枢神经系统活动,并将其转 化为人工输出指令,能够替代、修复、增强、补充或者改善中枢神经系统的正常 输出,从而改变中枢神经系统与内外环境之间的交互作用。脑机交互通过对神经 信号解码,实现脑信号到机器指令的转化,一般包括信号采集、特征提取和命令 输出三个模块。从脑电信号采集的角度,一般将脑机接口分为侵入式和非侵入式 两大类。除此之外,脑机接口还有其他常见的分类方式:按照信号传输方向可以 分为脑到机、机到脑和脑机双向接口;按照信号生成的类型,可分为自发式脑机 接口和诱发式脑机接口;按照信号源的不同还可分为基于脑电的脑机接口、基于 功能性核磁共振的脑机接口以及基于近红外光谱分析的脑机接口。

  3.1.5 计算机视觉

  计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类 提取、处理、理解和分析图像以及图像序列的能力。自动驾驶、机器人、智能医 疗等领域均需要通过计算机视觉技术从视觉信号中提取并处理信息。近来随着深 度学习的发展,预处理、特征提取与算法处理渐渐融合,形成端到端的人工智能 算法技术。根据解决的问题,计算机视觉可分为计算成像学、图像理解、三维视 觉、动态视觉和视频编解码五大类。

  (1)计算成像学

  计算成像学是探索人眼结构、相机成像原理以及其延伸应用的科学。在相机 成像原理方面,计算成像学不断促进现有可见光相机的完善,使得现代相机更加 轻便,可以适用于不同场景。同时计算成像学也推动着新型相机的产生,使相机 超出可见光的限制。在相机应用科学方面,计算成像学可以提升相机的能力,从 而通过后续的算法处理使得在受限条件下拍摄的图像更加完善,例如图像去噪、去模糊、暗光增强、去雾霾等,以及实现新的功能,例如全景图、软件虚化、超 分辨率等。

  (2)图像理解

  图像理解是通过用计算机系统解释图像,实现类似人类视觉系统理解外部世 界的一门科学。通常根据理解信息的抽象程度可分为三个层次:浅层理解,包括 图像边缘、图像特征点、纹理元素等;中层理解,包括物体边界、区域与平面等; 高层理解,根据需要抽取的高层语义信息,可大致分为识别、检测、分割、姿态 估计、图像文字说明等。目前高层图像理解算法已逐渐广泛应用于人工智能系统, 如刷脸支付、智慧安防、图像搜索等。

  (3)三维视觉

  三维视觉即研究如何通过视觉获取三维信息(三维重建)以及如何理解所获 取的三维信息的科学。三维重建可以根据重建的信息来源,分为单目图像重建、 多目图像重建和深度图像重建等。三维信息理解,即使用三维信息辅助图像理解 或者直接理解三维信息。三维信息理解可分为,浅层:角点、边缘、法向量等; 中层:平面、立方体等;高层:物体检测、识别、分割等。三维视觉技术可以广 泛应用于机器人、无人驾驶、智慧工厂、虚拟/增强现实等方向。

  (4)动态视觉

  动态视觉即分析视频或图像序列,模拟人处理时序图像的科学。通常动态视 觉问题可以定义为寻找图像元素,如像素、区域、物体在时序上的对应,以及提 取其语义信息的问题。动态视觉研究被广泛应用在视频分析以及人机交互等方面。

  (5)视频编解码

  视频编解码是指通过特定的压缩技术,将视频流进行压缩。视频流传输中最 为重要的编解码标准有国际电联的 H.261、H.263、H.264、H.265、M-JPEG 和 MPEG 系列标准。视频压缩编码主要分为两大类:无损压缩和有损压缩。无损压 缩指使用压缩后的数据进行重构时,重构后的数据与原来的数据完全相同,例如 磁盘文件的压缩。有损压缩也称为不可逆编码,指使用压缩后的数据进行重构时, 重构后的数据与原来的数据有差异,但不会影响人们对原始资料所表达的信息产 生误解。有损压缩的应用范围广泛,例如视频会议、可视电话、视频广播、视频监控等。

  目前,计算机视觉技术发展迅速,已具备初步的产业规模。未来计算机视觉 技术的发展主要面临以下挑战:一是如何在不同的应用领域和其他技术更好的结 合,计算机视觉在解决某些问题时可以广泛利用大数据,已经逐渐成熟并且可以 超过人类,而在某些问题上却无法达到很高的精度;二是如何降低计算机视觉算 法的开发时间和人力成本,目前计算机视觉算法需要大量的数据与人工标注,需 要较长的研发周期以达到应用领域所要求的精度与耗时;三是如何加快新型算法 的设计开发,随着新的成像硬件与人工智能芯片的出现,针对不同芯片与数据采 集设备的计算机视觉算法的设计与开发也是挑战之一。

  3.1.6 生物特征识别

  生物特征识别技术是指通过个体生理特征或行为特征对个体身份进行识别 认证的技术。从应用流程看,生物特征识别通常分为注册和识别两个阶段。注册 阶段通过传感器对人体的生物表征信息进行采集,如利用图像传感器对指纹和人 脸等光学信息、麦克风对说话声等声学信息进行采集,利用数据预处理以及特征 提取技术对采集的数据进行处理,得到相应的特征进行存储。识别过程采用与注 册过程一致的信息采集方式对待识别人进行信息采集、数据预处理和特征提取, 然后将提取的特征与存储的特征进行比对分析,完成识别。从应用任务看,生物 特征识别一般分为辨认与确认两种任务,辨认是指从存储库中确定待识别人身份 的过程,是一对多的问题;确认是指将待识别人信息与存储库中特定单人信息进 行比对,确定身份的过程,是一对一的问题。

  生物特征识别技术涉及的内容十分广泛,包括指纹、掌纹、人脸、虹膜、指 静脉、声纹、步态等多种生物特征,其识别过程涉及到图像处理、计算机视觉、 语音识别、机器学习等多项技术。目前生物特征识别作为重要的智能化身份认证 技术,在金融、公共安全、教育、交通等领域得到广泛的应用。下面将对指纹识 别、人脸识别、虹膜识别、指静脉识别、声纹识别以及步态识别等技术进行介绍。

  (1)指纹识别 指纹识别过程通常包括数据采集、数据处理、分析判别三个过程。数据采集 通过光、电、力、热等物理传感器获取指纹图像;数据处理包括预处理、畸变校正、特征提取三个过程;分析判别是对提取的特征进行分析判别的过程。

  (2)人脸识别 人脸识别是典型的计算机视觉应用,从应用过程来看,可将人脸识别技术划 分为检测定位、面部特征提取以及人脸确认三个过程。人脸识别技术的应用主要 受到光照、拍摄角度、图像遮挡、年龄等多个因素的影响,在约束条件下人脸识 别技术相对成熟,在自由条件下人脸识别技术还在不断改进。

  (3)虹膜识别 虹膜识别的理论框架主要包括虹膜图像分割、虹膜区域归一化、特征提取和 识别四个部分,研究工作大多是基于此理论框架发展而来。虹膜识别技术应用的 主要难题包含传感器和光照影响两个方面:一方面,由于虹膜尺寸小且受黑色素 遮挡,需在近红外光源下采用高分辨图像传感器才可清晰成像,对传感器质量和 稳定性要求比较高;另一方面,光照的强弱变化会引起瞳孔缩放,导致虹膜纹理 产生复杂形变,增加了匹配的难度。

  (4)指静脉识别 指静脉识别是利用了人体静脉血管中的脱氧血红蛋白对特定波长范围内的 近红外线有很好的吸收作用这一特性,采用近红外光对指静脉进行成像与识别的 技术。由于指静脉血管分布随机性很强,其网络特征具有很好的唯一性,且属于 人体内部特征,不受到外界影响,因此模态特性十分稳定。指静脉识别技术应用 面临的主要难题来自于成像单元。

  (5)声纹识别 声纹识别是指根据待识别语音的声纹特征识别说话人的技术。声纹识别技术 通常可以分为前端处理和建模分析两个阶段。声纹识别的过程是将某段来自某个 人的语音经过特征提取后与多复合声纹模型库中的声纹模型进行匹配,常用的识 别方法可以分为模板匹配法、概率模型法等。

  (6)步态识别 步态是远距离复杂场景下唯一可清晰成像的生物特征,步态识别是指通过身 体体型和行走姿态来识别人的身份。相比上述几种生物特征识别,步态识别的技术难度更大,体现在其需要从视频中提取运动特征,以及需要更高要求的预处理 算法,但步态识别具有远距离、跨角度、光照不敏感等优势。

  3.1.7 虚拟现实/增强现实

  虚拟现实(VR)/增强现实(AR)是以计算机为核心的新型视听技术。结合 相关科学技术,在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近 似的数字化环境。用户借助必要的装备与数字化环境中的对象进行交互,相互影 响,获得近似真实环境的感受和体验,通过显示设备、跟踪定位设备、触力觉交 互设备、数据获取设备、专用芯片等实现。

  虚拟现实/增强现实从技术特征角度,按照不同处理阶段,可以分为获取与 建模技术、分析与利用技术、交换与分发技术、展示与交互技术以及技术标准与 评价体系五个方面。获取与建模技术研究如何把物理世界或者人类的创意进行数 字化和模型化,难点是三维物理世界的数字化和模型化技术;分析与利用技术重 点研究对数字内容进行分析、理解、搜索和知识化方法,其难点是在于内容的语 义表示和分析;交换与分发技术主要强调各种网络环境下大规模的数字化内容流 通、转换、集成和面向不同终端用户的个性化服务等,其核心是开放的内容交换 和版权管理技术;展示与交换技术重点研究符合人类习惯数字内容的各种显示技 术及交互方法,以期提高人对复杂信息的认知能力,其难点在于建立自然和谐的 人机交互环境;标准与评价体系重点研究虚拟现实/增强现实基础资源、内容编 目、信源编码等的规范标准以及相应的评估技术。

  目前虚拟现实/增强现实面临的挑战主要体现在智能获取、普适设备、自由 交互和感知融合四个方面。在硬件平台与装置、核心芯片与器件、软件平台与工 具、相关标准与规范等方面存在一系列科学技术问题。总体来说虚拟现实/增强 现实呈现虚拟现实系统智能化、虚实环境对象无缝融合、自然交互全方位与舒适 化的发展趋势。

  3.1.8 人工智能技术发展趋势

  综上所述,人工智能技术在以下方面的发展有显著的特点,是进一步研究人 工智能趋势的重点。

  (1)技术平台开源化 开源的学习框架在人工智能领域的研发成绩斐然,对深度学习领域影响巨大。 开源的深度学习框架使得开发者可以直接使用已经研发成功的深度学习工具,减 少二次开发,提高效率,促进业界紧密合作和交流。国内外产业巨头也纷纷意识 到通过开源技术建立产业生态,是抢占产业制高点的重要手段。通过技术平台的 开源化,可以扩大技术规模,整合技术和应用,有效布局人工智能全产业链。谷 歌、百度等国内外龙头企业纷纷布局开源人工智能生态,未来将有更多的软硬件 企业参与开源生态。

  (2)专用智能向通用智能发展 目前的人工智能发展主要集中在专用智能方面,具有领域局限性。随着科技 的发展,各领域之间相互融合、相互影响,需要一种范围广、集成度高、适应能 力强的通用智能,提供从辅助性决策工具到专业性解决方案的升级。通用人工智 能具备执行一般智慧行为的能力,可以将人工智能与感知、知识、意识和直觉等 人类的特征互相连接,减少对领域知识的依赖性、提高处理任务的普适性,这将 是人工智能未来的发展方向。未来的人工智能将广泛的涵盖各个领域,消除各领 域之间的应用壁垒。

  (3)智能感知向智能认知方向迈进 人工智能的主要发展阶段包括:运算智能、感知智能、认知智能,这一观点 得到业界的广泛认可。早期阶段的人工智能是运算智能,机器具有快速计算和记 忆存储能力。当前大数据时代的人工智能是感知智能,机器具有视觉、听觉、触 觉等感知能力。随着类脑科技的发展,人工智能必然向认知智能时代迈进,即让 机器能理解会思考。

  3.2 人工智能产业现状及趋势

  人工智能作为新一轮产业变革的核心驱动力,将催生新的技术、产品、产业、 业态、模式,从而引发经济结构的重大变革,实现社会生产力的整体提升。麦肯 锡预计,到 2025 年全球人工智能应用市场规模总值将达到 1270 亿美元,人工智 能将是众多智能产业发展的突破点。

  通过对人工智能产业分布进行梳理,提出了人工智能产业生态图,主要分为 核心业态、关联业态、衍生业态三个层次,如图 3 所示。

  下面将重点对核心业态包含的智能基础设施建设、智能信息及数据、智能技 术服务、智能产品四个方面展开介绍,并总结人工智能行业应用及产业发展趋势。

  3.2.1 智能基础设施

  智能基础设施为人工智能产业提供计算能力支撑,其范围包括智能传感器、 智能芯片、分布式计算框架等,是人工智能产业发展的重要保障。

  (1)智能芯片

  智能芯片从应用角度可以分为训练和推理两种类型。从部署场景来看,可以 分为云端和设备端两步大类。训练过程由于涉及海量的训练数据和复杂的深度神 经网络结构,需要庞大的计算规模,主要使用智能芯片集群来完成。与训练的计 算量相比,推理的计算量较少,但仍然涉及大量的矩阵运算。目前,训练和推理 通常都在云端实现,只有对实时性要求很高的设备会交由设备端进行处理。

  按技术架构来看,智能芯片可以分为通用类芯片(CPU、GPU、FPGA)、基于 FPGA 的半定制化芯片、全定制化 ASIC 芯片、类脑计算芯片(IBM TrueNorth)。 另外,主要的人工智能处理器还有 DPU、BPU、NPU、EPU 等适用于不同场景 和功能的人工智能芯片。

  随着互联网用户量和数据规模的急剧膨胀,人工智能发展对计算性能的要求 迫切增长,对 CPU 计算性能提升的需求超过了摩尔定律的增长速度。同时,受 限于技术原因,传统处理器性能也无法按照摩尔定律继续增长,发展下一代智能 芯片势在必行。未来的智能芯片主要是在两个方向发展:一是模仿人类大脑结构 的芯片,二是量子芯片。智能芯片是人工智能时代的战略制高点,预计到 2020 年人工智能芯片全球市场规模将突破百亿美元。

  (2)智能传感器

  智能传感器是具有信息处理功能的传感器。智能传感器带有微处理机,具备 采集、处理、交换信息等功能,是传感器集成化与微处理机相结合的产物。智能 传感器属于人工智能的神经末梢,用于全面感知外界环境。各类传感器的大规模 部署和应用为实现人工智能创造了不可或缺的条件。不同应用场景,如智能安防、 智能家居、智能医疗等对传感器应用提出了不同的要求。未来,随着人工智能应 用领域的不断拓展,市场对传感器的需求将不断增多,2020 年市场规模有望突 破 4600 亿美元。未来,高敏度、高精度、高可靠性、微型化、集成化将成为智 能传感器发展的重要趋势。

  (3)分布式计算框架

  面对海量的数据处理、复杂的知识推理,常规的单机计算模式已经不能支撑。 所以,计算模式必须将巨大的计算任务分成小的单机可以承受的计算任务,即云 计算、边缘计算、大数据技术提供了基础的计算框架。目前流行的分布式计算框 架如 OpenStack、Hadoop、Storm、Spark、Samza、Bigflow 等。各种开源深度学 习框架也层出不穷,其中包括 TensorFlow、Caffe、Keras、CNTK、Torch7、MXNet、 Leaf、Theano、DeepLearning4、Lasagne、Neon 等等。

  3.2.2 智能信息及数据

  信息数据是人工智能创造价值的关键要素之一。我国庞大的人口和产业基数 带来了数据方面的天生优势。随着算法、算力技术水平的提升,围绕数据的采集、 分析、处理产生了众多的企业。目前,在人工智能数据采集、分析、处理方面的 企业主要有两种:一种是数据集提供商,以提供数据为自身主要业务,为需求方 提供机器学习等技术所需要的不同领域的数据集;另一种是数据采集、分析、处理综合性厂商,自身拥有获取数据的途径,并对采集到的数据进行分析处理,最 终将处理后的结果提供给需求方进行使用。对于一些大型企业,企业本身也是数 据分析处理结果的需求方。

  3.2.3 智能技术服务

  智能技术服务主要关注如何构建人工智能的技术平台,并对外提供人工智能 相关的服务。此类厂商在人工智能产业链中处于关键位置,依托基础设施和大量 的数据,为各类人工智能的应用提供关键性的技术平台、解决方案和服务。目前, 从提供服务的类型来看,提供技术服务厂商包括以下几类:

  (1)提供人工智能的技术平台和算法模型。此类厂商主要针对用户或者行 业需求,提供人工智能技术平台以及算法模型。用户可以在人工智能平台之上, 通过一系列的算法模型来进行人工智能的应用开发。此类厂商主要关注人工智能 的通用计算框架、算法模型、通用技术等关键领域。

  (2)提供人工智能的整体解决方案。此类厂商主要针对用户或者行业需求, 设计和提供包括软、硬件一体的行业人工智能解决方案,整体方案中集成多种人 工智能算法模型以及软、硬件环境,帮助用户或行业解决特定的问题。此类厂商 重点关注人工智能在特定领域或者特定行业的应用。

  (3)提供人工智能在线服务。此类厂商一般为传统的云服务提供厂商,主 要依托其已有的云计算和大数据应用的用户资源,聚集用户的需求和行业属性, 为客户提供多类型的人工智能服务;从各类模型算法和计算框架的 API 等特定 应用平台到特定行业的整体解决方案等,进一步吸引大量的用户使用,从而进一 步完善其提供的人工智能服务。此类厂商主要提供相对通用的人工智能服务,同 时也会关注一些重点行业和领域。

  需要指出的是,上述三类角色并不是严格区分开的,很多情况下会出现重叠, 随着技术的发展成熟,在人工智能产业链中已有大量的厂商同时具备上述两类或 者三类角色的特征。

  

(0 ) (0 )
回复 举报

回复于 2018-02-08 沙发

多谢分享~~
(0 )
评论 (0) 举报
  • 发表回复
    0/3000





    举报

    请选择举报类别

    • 广告垃圾
    • 违规内容
    • 恶意灌水
    • 重复发帖

    全部板块

    返回顶部