人工智能标准化白皮书（2）-融创电子社区

首页论坛技术交流专区物联网人工智能标准化白皮书（2）

发帖

卫斯理
121 发帖

7 回复

2470 积分
私信他 + 关注

[分享] 人工智能标准化白皮书（2）

509 查看

1 回复

楼主 | 发布于 2018-02-07 | 只看楼主

分享到：

2.1.2人工智能的概念

人工智能作为一门前沿交叉学科，其定义一直存有不同的观点：《人工智能 ——一种现代方法》中将已有的一些人工智能定义分为四类：像人一样思考的系统、像人一样行动的系统、理性地思考的系统、理性地行动的系统。维基百科上定义“人工智能就是机器展现出的智能”，即只要是某种机器，具有某种或某些 “智能”的特征或表现，都应该算作“人工智能”。大英百科全书则限定人工智能是数字计算机或者数字计算机控制的机器人在执行智能生物体才有的一些任务上的能力。百度百科定义人工智能是“研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学”，将其视为计算机科学的一个分支，指出其研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

本白皮书认为，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能的定义对人工智能学科的基本思想和内容作出了解释，即围绕智能活动而构造的人工系统。人工智能是知识的工程，是机器模仿人类利用知识完成一定行为的过程。根据人工智能是否能真正实现推理、思考和解决问题，可以将人工智能分为弱人工智能和强人工智能。

弱人工智能是指不能真正实现推理和解决问题的智能机器，这些机器表面看像是智能的，但是并不真正拥有智能，也不会有自主意识。迄今为止的人工智能系统都还是实现特定功能的专用智能，而不是像人类智能那样能够不断适应复杂的新环境并不断涌现出新的功能，因此都还是弱人工智能。目前的主流研究仍然集中于弱人工智能，并取得了显著进步，如语音识别、图像处理和物体分割、机器翻译等方面取得了重大突破，甚至可以接近或超越人类水平。

强人工智能是指真正能思维的智能机器，并且认为这样的机器是有知觉的和自我意识的，这类机器可分为类人（机器的思考和推理类似人的思维）与非类人（机器产生了和人完全不一样的知觉和意识，使用和人完全不一样的推理方式）两大类。从一般意义来说，达到人类水平的、能够自适应地应对外界环境挑战的、具有自我意识的人工智能称为“通用人工智能”、“强人工智能”或“类人智能”。强人工智能不仅在哲学上存在巨大争论（涉及到思维与意识等根本问题的讨论），在技术上的研究也具有极大的挑战性。强人工智能当前鲜有进展，美国私营部门的专家及国家科技委员会比较支持的观点是，至少在未来几十年内难以实现。

靠符号主义、连接主义、行为主义和统计主义这四个流派的经典路线就能设计制造出强人工智能吗？其中一个主流看法是：即使有更高性能的计算平台和更大规模的大数据助力，也还只是量变，不是质变，人类对自身智能的认识还处在初级阶段，在人类真正理解智能机理之前，不可能制造出强人工智能。理解大脑产生智能的机理是脑科学的终极性问题，绝大多数脑科学专家都认为这是一个数百年乃至数千年甚至永远都解决不了的问题。

通向强人工智能还有一条“新”路线，这里称为“仿真主义”。这条新路线通过制造先进的大脑探测工具从结构上解析大脑，再利用工程技术手段构造出模仿大脑神经网络基元及结构的仿脑装置，最后通过环境刺激和交互训练仿真大脑实现类人智能，简言之，“先结构，后功能”。虽然这项工程也十分困难，但都是有可能在数十年内解决的工程技术问题，而不像“理解大脑”这个科学问题那样遥不可及。

仿真主义可以说是符号主义、连接主义、行为主义和统计主义之后的第五个流派，和前四个流派有着千丝万缕的联系，也是前四个流派通向强人工智能的关键一环。经典计算机是数理逻辑的开关电路实现，采用冯•诺依曼体系结构，可以作为逻辑推理等专用智能的实现载体。但要靠经典计算机不可能实现强人工智能。要按仿真主义的路线“仿脑”，就必须设计制造全新的软硬件系统，这就是 “类脑计算机”，或者更准确地称为“仿脑机”。“仿脑机”是“仿真工程”的标志性成果，也是“仿脑工程”通向强人工智能之路的重要里程碑。

2.2 人工智能的特征

（1）由人类设计，为人类服务，本质为计算，基础为数据。从根本上说，人工智能系统必须以人为本，这些系统是人类设计出的机器，按照人类设定的程序逻辑或软件算法通过人类发明的芯片等硬件载体来运行或工作，其本质体现为计算，通过对数据的采集、加工、处理、分析和挖掘，形成有价值的信息流和知识模型，来为人类提供延伸人类能力的服务，来实现对人类期望的一些“智能行为”的模拟，在理想情况下必须体现服务人类的特点，而不应该伤害人类，特别是不应该有目的性地做出伤害人类的行为。

（2）能感知环境，能产生反应，能与人交互，能与人互补。人工智能系统应能借助传感器等器件产生对外界环境（包括人类）进行感知的能力，可以像人一样通过听觉、视觉、嗅觉、触觉等接收来自环境的各种信息，对外界输入产生文字、语音、表情、动作（控制执行机构）等必要的反应，甚至影响到环境或人类。借助于按钮、键盘、鼠标、屏幕、手势、体态、表情、力反馈、虚拟现实/ 增强现实等方式，人与机器间可以产生交互与互动，使机器设备越来越“理解” 人类乃至与人类共同协作、优势互补。这样，人工智能系统能够帮助人类做人类不擅长、不喜欢但机器能够完成的工作，而人类则适合于去做更需要创造性、洞察力、想象力、灵活性、多变性乃至用心领悟或需要感情的一些工作。

（3）有适应特性，有学习能力，有演化迭代，有连接扩展。人工智能系统在理想情况下应具有一定的自适应特性和学习能力，即具有一定的随环境、数据或任务变化而自适应调节参数或更新优化模型的能力；并且，能够在此基础上通过与云、端、人、物越来越广泛深入数字化连接扩展，实现机器客体乃至人类主体的演化迭代，以使系统具有适应性、鲁棒性、灵活性、扩展性，来应对不断变化的现实环境，从而使人工智能系统在各行各业产生丰富的应用。

2.3 人工智能参考框架

目前，人工智能领域尚未形成完善的参考框架。因此，本章基于人工智能的发展状况和应用特征，从人工智能信息流动的角度出发，提出一种人工智能参考框架（如图 2 所示），力图搭建较为完整的人工智能主体框架，描述人工智能系统总体工作流程，不受具体应用所限，适用于通用的人工智能领域需求。

人工智能参考框架提供了基于“角色—活动—功能”的层级分类体系，从 “智能信息链”（水平轴）和“IT 价值链”（垂直轴）两个维度阐述了人工智能系统框架。“智能信息链”反映从智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，智能信息是流动的载体，经历了“数据—信息—知识—智慧”的凝练过程。“IT 价值链”从人工智能的底层基础设施、信息（提供和处理技术实现）到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。此外，人工智能系统还有其它非常重要的框架构件：安全、隐私、伦理和管理。人工智能系统主要由基础设施提供者、信息提供者、信息处理者和系统协调者 4 个角色组成。

（1）基础设施提供者

基础设施提供者为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。计算能力由智能芯片（CPU、GPU、ASIC、FPGA 等硬件加速芯片以及其它智能芯片）等硬件系统开发商提供；与外部世界的沟通通过新型传感器制造商提供；基础平台包括分布式计算框架提供商及网络提供商提供平台保障和支持，即包括云存储和计算、互联互通网络等。

（2）信息提供者

信息提供者在人工智能领域是智能信息的来源。通过知识信息感知过程由数据提供商提供智能感知信息，包括原始数据资源和数据集。原始数据资源的感知涉及到图形、图像、语音、文本的识别，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

（3）信息处理者

信息处理者是指人工智能领域中技术和服务提供商。信息处理者的主要活动包括智能信息表示与形成、智能推理、智能决策及智能执行与输出。智能信息处理者通常是算法工程师及技术服务提供商，通过计算框架、模型及通用技术，例如一些深度学习框架和机器学习算法模型等功能进行支撑。

智能信息表示与形成是指为描述外围世界所作的一组约定，分阶段对智能信息进行符号化和形式化的智能信息建模、抽取、预处理、训练数据等。

智能信息推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

智能信息决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

智能执行与输出作为智能信息输出的环节，是对输入作出的响应，输出整个智能信息流动过程的结果，包括运动、显示、发声、交互、合成等功能。

（4）系统协调者

系统协调者提供人工智能系统必须满足的整体要求，包括政策、法律、资源和业务需求，以及为确保系统符合这些需求而进行的监控和审计活动。由于人工智能是多学科交叉领域，需要系统协调者定义和整合所需的应用活动，使其在人工智能领域的垂直系统中运行。系统协调者的功能之一是配置和管理人工智能参考框架中的其他角色来执行一个或多个功能，并维持人工智能系统的运行。

（5）安全、隐私、伦理安全、隐私、伦理覆盖了人工智能领域的其他 4 个主要角色，对每个角色都有重要的影响作用。同时，安全、隐私、伦理处于管理角色的覆盖范围之内，与全部角色和活动都建立了相关联系。在安全、隐私、伦理模块，需要通过不同的技术手段和安全措施，构筑全方位、立体的安全防护体系，保护人工智能领域参与者的安全和隐私。

（6）管理管理角色承担系统管理活动，包括软件调配、资源管理等内容，管理的功能是监视各种资源的运行状况，应对出现的性能或故障事件，使得各系统组件透明且可观。

（7）智能产品及行业应用智能产品及行业应用指人工智能系统的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防等。

▌3 人工智能发展现状及趋势

依据参考框架中所涉及到的人工智能相关技术，本节重点介绍近二十年来人工智能领域关键技术的发展状况，包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。

3.1 人工智能关键技术

3.1.1 机器学习

机器学习（Machine Learning）是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科，研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，是人工智能技术的核心。基于数据的机器学习是现代智能技术中的重要方法之一，研究从观测数据（样本）出发寻找规律，利用这些规律对未来数据或无法观测的数据进行预测。根据学习模式、学习方法以及算法的不同，机器学习存在不同的分类方法。

（1）根据学习模式将机器学习分类为监督学习、无监督学习和强化学习等。

监督学习

监督学习是利用已标记的有限训练数据集，通过某种学习策略/方法建立一个模型，实现对新数据/实例的标记（分类）/映射，最典型的监督学习算法包括回归和分类。监督学习要求训练样本的分类标签已知，分类标签精确度越高，样本越具有代表性，学习模型的准确度越高。监督学习在自然语言处理、信息检索、文本挖掘、手写体辨识、垃圾邮件侦测等领域获得了广泛应用。

无监督学习

无监督学习是利用无标记的有限数据描述隐藏在未标记数据中的结构/规律，最典型的非监督学习算法包括单类密度估计、单类数据降维、聚类等。无监督学习不需要训练样本和人工标注数据，便于压缩数据存储、减少计算量、提升算法速度，还可以避免正、负样本偏移引起的分类错误问题。主要用于经济预测、异常检测、数据挖掘、图像处理、模式识别等领域，例如组织大型计算机集群、社交网络分析、市场分割、天文数据分析等。

强化学习

强化学习是智能系统从环境到行为映射的学习，以使强化信号函数值最大。由于外部环境提供的信息很少，强化学习系统必须靠自身的经历进行学习。强化学习的目标是学习从环境状态到行为的映射，使得智能体选择的行为能够获得环境最大的奖赏，使得外部环境对学习系统在某种意义下的评价为最佳。其在机器人控制、无人驾驶、下棋、工业控制等领域获得成功应用。

（2）根据学习方法可以将机器学习分为传统机器学习和深度学习。

传统机器学习

传统机器学习从一些观测（训练）样本出发，试图发现不能通过原理分析获得的规律，实现对未来数据行为或趋势的准确预测。相关算法包括逻辑回归、隐马尔科夫方法、支持向量机方法、K 近邻方法、三层人工神经网络方法、Adaboost 算法、贝叶斯方法以及决策树方法等。传统机器学习平衡了学习结果的有效性与学习模型的可解释性，为解决有限样本的学习问题提供了一种框架，主要用于有限样本情况下的模式分类、回归分析、概率密度估计等。传统机器学习方法共同的重要理论基础之一是统计学，在自然语言处理、语音识别、图像识别、信息检索和生物信息等许多计算机领域获得了广泛应用。

深度学习

深度学习是建立深层结构模型的学习方法，典型的深度学习算法包括深度置信网络、卷积神经网络、受限玻尔兹曼机和循环神经网络等。深度学习又称为深度神经网络（指层数超过 3 层的神经网络）。深度学习作为机器学习研究中的一个新兴领域，由 Hinton 等人于 2006 年提出。深度学习源于多层神经网络，其实质是给出了一种将特征表示和学习合二为一的方式。深度学习的特点是放弃了可解释性，单纯追求学习的有效性。经过多年的摸索尝试和研究，已经产生了诸多深度神经网络的模型，其中卷积神经网络、循环神经网络是两类典型的模型。卷积神经网络常被应用于空间性分布数据；循环神经网络在神经网络中引入了记忆和反馈，常被应用于时间性分布数据。深度学习框架是进行深度学习的基础底层框架，一般包含主流的神经网络算法模型，提供稳定的深度学习 API，支持训练模型在服务器和 GPU、TPU 间的分布式学习，部分框架还具备在包括移动设备、云平台在内的多种平台上运行的移植能力，从而为深度学习算法带来前所未有的运行速度和实用性。目前主流的开源算法框架有 TensorFlow、Caffe/Caffe2、CNTK、 MXNet、Paddle-paddle、Torch/PyTorch、Theano 等。

（3）此外，机器学习的常见算法还包括迁移学习、主动学习和演化学习等。

迁移学习

迁移学习是指当在某些领域无法取得足够多的数据进行模型训练时，利用另一领域数据获得的关系进行的学习。迁移学习可以把已训练好的模型参数迁移到新的模型指导新模型训练，可以更有效的学习底层规则、减少数据量。目前的迁移学习技术主要在变量有限的小规模应用中使用，如基于传感器网络的定位，文字分类和图像分类等。未来迁移学习将被广泛应用于解决更有挑战性的问题，如视频分类、社交网络分析、逻辑推理等。

主动学习

主动学习通过一定的算法查询最有用的未标记样本，并交由专家进行标记，然后用查询到的样本训练分类模型来提高模型的精度。主动学习能够选择性地获取知识，通过较少的训练样本获得高性能的模型，最常用的策略是通过不确定性准则和差异性准则选取有效的样本。

演化学习

演化学习对优化问题性质要求极少，只需能够评估解的好坏即可，适用于求解复杂的优化问题，也能直接用于多目标优化。演化算法包括粒子群优化算法、多目标演化算法等。目前针对演化学习的研究主要集中在演化数据聚类、对演化数据更有效的分类，以及提供某种自适应机制以确定演化机制的影响等。

3.1.2 知识图谱

知识图谱本质上是结构化的语义知识库，是一种由节点和边组成的图数据结构，以符号形式描述物理世界中的概念及其相互关系，其基本组成单位是“实体 —关系—实体”三元组，以及实体及其相关“属性—值”对。不同实体之间通过关系相互联结，构成网状的知识结构。在知识图谱中，每个节点表示现实世界的 “实体”，每条边为实体与实体之间的“关系”。通俗地讲，知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络，提供了从“关系”的角度去分析问题的能力。

知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域，需要用到异常分析、静态分析、动态分析等数据挖掘方法。特别地，知识图谱在搜索引擎、可视化展示和精准营销方面有很大的优势，已成为业界的热门工具。但是，知识图谱的发展还有很大的挑战，如数据的噪声问题，即数据本身有错误或者数据存在冗余。随着知识图谱应用的不断深入，还有一系列关键技术需要突破。

3.1.3 自然语言处理

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，涉及的领域较多，主要包括机器翻译、机器阅读理解和问答系统等。

（1）机器翻译

机器翻译技术是指利用计算机技术实现从一种自然语言到另外一种自然语言的翻译过程。基于统计的机器翻译方法突破了之前基于规则和实例翻译方法的局限性，翻译性能取得巨大提升。基于深度神经网络的机器翻译在日常口语等一些场景的成功应用已经显现出了巨大的潜力。随着上下文的语境表征和知识逻辑推理能力的发展，自然语言知识图谱不断扩充，机器翻译将会在多轮对话翻译及篇章翻译等领域取得更大进展。

目前非限定领域机器翻译中性能较佳的一种是统计机器翻译，包括训练及解码两个阶段。训练阶段的目标是获得模型参数，解码阶段的目标是利用所估计的参数和给定的优化目标，获取待翻译语句的最佳翻译结果。统计机器翻译主要包括语料预处理、词对齐、短语抽取、短语概率计算、最大熵调序等步骤。基于神经网络的端到端翻译方法不需要针对双语句子专门设计特征模型，而是直接把源语言句子的词串送入神经网络模型，经过神经网络的运算，得到目标语言句子的翻译结果。在基于端到端的机器翻译系统中，通常采用递归神经网络或卷积神经网络对句子进行表征建模，从海量训练数据中抽取语义信息，与基于短语的统计翻译相比，其翻译结果更加流畅自然，在实际应用中取得了较好的效果。

（2）语义理解

语义理解技术是指利用计算机技术实现对文本篇章的理解，并且回答与篇章相关问题的过程。语义理解更注重于对上下文的理解以及对答案精准程度的把控。随着 MCTest 数据集的发布，语义理解受到更多关注，取得了快速发展，相关数据集和对应的神经网络模型层出不穷。语义理解技术将在智能客服、产品自动问答等相关领域发挥重要作用，进一步提高问答与对话系统的精度。

在数据采集方面，语义理解通过自动构造数据方法和自动构造填空型问题的方法来有效扩充数据资源。为了解决填充型问题，一些基于深度学习的方法相继提出，如基于注意力的神经网络方法。当前主流的模型是利用神经网络技术对篇章、问题建模，对答案的开始和终止位置进行预测，抽取出篇章片段。对于进一步泛化的答案，处理难度进一步提升，目前的语义理解技术仍有较大的提升空间。

（3）问答系统

问答系统分为开放领域的对话系统和特定领域的问答系统。问答系统技术是指让计算机像人类一样用自然语言与人交流的技术。人们可以向问答系统提交用自然语言表达的问题，系统会返回关联性较高的答案。尽管问答系统目前已经有了不少应用产品出现，但大多是在实际信息服务系统和智能手机助手等领域中的应用，在问答系统鲁棒性方面仍然存在着问题和挑战。

自然语言处理面临四大挑战：一是在词法、句法、语义、语用和语音等不同层面存在不确定性；二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性；三是数据资源的不充分使其难以覆盖复杂的语言现象；四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述，语义计算需要参数庞大的非线性计算。