导读
近日,中国移动研究院发布文章,解说了数据治理和人工智能两者之间各自发展历程,论证了两者在结构功能上的相互作用,阐明了两者共同发展的前景。
Part 1
数据治理:大数据产业生态系统中的新热点
近些年来,随着大数据在各个行业领域应用的不断深入,数据作为基础性战略资源的地位日益凸显,数据标准化、数据确权、数据质量、数据安全、隐私保护、数据流通管控、数据共享开放这些问题越来越受到国家、行业、企业各个层面的高度关注。更多的人开始意识到,大数据一方面给现有信息技术体系带来了大挑战,需要更多的研发投入和创新;另一方面,也需要营造更有利于大数据产业健康有序发展的良好环境,这样一来,数据治理的概念就越来越多受到了关注,成为目前大数据产业生态系统中的新热点。
在上世纪80年代,随着数据随机存储和数据库技术应用,产业界首次提出了数据管理的概念,这就是数据治理最早的起源。2009年,国际数据管理协会(DAMA)发布了数据管理知识体系DMBOK1.0,提出DAMA数据管理理论框架模型,成为了目前行业最权威的数据管理理论模型,DAMA 数据管理模型包括10个活动职能,分别是数据治理、数据架构管理、数据开发、数据操作管理、数据安全管理、参考数据和主数据管理、数据仓库和商务智能管理、文档和内容管理、元数据管理和数据质量管理。2015年,DAMA 新发布的DBMOK2.0知识领域中又将该模型扩展为11个活动职能。在2012年,另一个行业组织数据管控协会 (DGI,The Data Governance Institute)提出了DGI数据管控框架模型。2014年,软件工程研究所(SEI)基于软件能力成熟度集成模型(CMMI),提出数据能力成熟度模型(DMM)。2015年,一个主要面向金融保险行业数据管理的公益性组织企业数据管理协会(EDM Council),提出数据管理能力评价模型(DCAM),另外还有像Gartner提出的企业信息能力成熟度模型(the EIM Maturity Model)、IBM企业数据管理能力成熟度模型以及一些咨询公司如毕马威、普华永道等发布的细分行业数据管理体系架构等。、
在我国,2015年,工信部电子技术标准化研究院制定《数据治理白皮书》国际标准研究报告。2017年,工信部信息通信研究院发布《数据资产管理白皮书》。2018年4月,国家大数据标准化工作组发布了国家标准《数据管理能力成熟度评估模型GB/T 36073-2018》(简称《DCMM模型》)。2018年5月,银保监会印发《银行业金融机构数据治理指引的通知》。近年来,国内各行业大型企业也纷纷发起企业内部数据治理项目,制定数据治理规范,成立专业的数据管理实体团队来开展企业数据治理工作。
上面提到的这些种种数据管理模型,奠定了此后诸多行业化、定制化数据管理模型的基础,各个企业纷纷在这些已有理论模型基础上扩展、裁剪、引申、演化,可谓百花齐放。
企业开展数据管理类的工作,除了使用“数据治理”这个词,业界也经常使用“数据管理”、“数据管控”、“数据资产管理”等说法。总之,这几个词语,概念略有差异,内涵基本一致,大家做的事,基本都跳不出DAMA数据管理模型的范围。
Part 2
人工智能:大型科技企业争夺未来的主战场
提到人工智能,近年来可谓炙手可热,产业界资本的积极布局,国家政府层面的大力宣传,还有一些像自动驾驶、机器人、智能客服、语音识别等方面实际应用的涌现,使得人工智能方面的人才身价倍增,很多大型科技企业也紧随趋势,成立了AI研究院、人工智能研发中心等实体组织。百度李彦宏宣称:“百度公司将不再是互联网公司,而是一家人工智能公司”。中国移动也高度重视人工智能,于2017年发布了“九天”人工智能平台,正努力将人工智能技术应用在 网络、市场、服务、安全、管理和衍生业务等多个领域。”就如一句段子所说:现在混在科技圈的,如果不说自己搞人工智能,都不好意思跟人打招呼。
人工智能已经成为了大型科技企业争夺未来的主战场,虽然尚不清楚,借助了更大的数据量(大数据)、更快的计算力(GPU)、更强的算法技术(深度学习等),过去数年间这个一度沉寂的领域,这一波的爆发能持续多久的时间,但技术发展一般都呈现波浪状,大数据的一波未平,人工智能一波又起,随着人工智能和社会各行业各领域不断融合和创新,相信在这新一轮的科技革命和产业变革进程中,人工智能技术将扮演更加重要的角色。
人工智能的研究范畴包括自然语言处理,知识表现,智能搜索,机器学习,知识获取,组合调度问题,感知问题,模式识别,神经网络等等,它的目标是希望计算机拥有像人一样的智力能力,可以替代人类实现识别、认知、分类和决策等多种功能。
人工智能更是历史悠久,1959年,计算机科学之父图灵发表了一篇划时代的论文《计算机器与智能》,文中提出了人工智能领域着名的图灵测试:如果电脑能在5分钟内回答由人类测试者提出的一系列问题,且其超过30%的回答让测试者误认为是人类所答,则电脑就通过测试并可下结论为机器具有智能。1956年,达特茅斯会议推动了全球第一次人工智能浪潮的出现,当时乐观的气氛弥漫着整个学界,在算法方面出现了很多世界级的发明,其中包括一种叫做增强学习的雏形(即贝尔曼公式),增强学习就是谷歌AlphaGo算法核心思想内容。现在常听到的深度学习模型,其雏形叫做感知器,也是在那几年间发明的。第一次人工智能冬天出现在1974年到1980年,人们发现逻辑证明器、感知器、增强学习等等只能做很简单、非常专业且使用场景很窄的任务,稍微超出范围就无法应对。在80年代出现了人工智能数学模型方面的重大发明,其中包括着名的多层神经网络(1986)和BP反向传播算法(1986)等,也出现了能与人类下象棋的高度智能机器(1989)。于是,大家又开始觉得人工智能可能还有戏。
然而,1987年到1993年现代PC的出现,让人工智能的寒冬再次降临。当时苹果、IBM开始推广第一代台式机,计算机开始走入个人家庭,其费用远远低于专家系统所使用的Symbolics和Lisp等机器。相比于现代PC,专家系统被认为古老陈旧而非常难以维护。于是,政府经费开始下降,寒冬又一次来临。人们开始思考人工智能到底往何处走,到底要实现什么样的人工智能。之后,出现了新的数学工具、新的理论和摩尔定律。人工智能也在确定自己的方向,其中一个选择就是要做实用性、功能性的人工智能,这导致了一个新的人工智能路径。由于对于人工智能任务的明确和简化,带来了新的繁荣。标志性事件就是1997年IBM深蓝战胜国际象棋大师。2011年,“深蓝”的同门师弟“沃森”在美国老牌智力问答节目《危险边缘》中挑战两位人类冠军,又使人工智能更上了一层台阶。2016年3月15日,谷歌研发的AlphaGo挑战围棋九段高手李世石,最后AlphaGo以4:1击败李世石,完爆人类,由此将人工智能推向了高潮。人们开始意识到机器智能已经在很多领域超越人类,甚至有人担心,未来机器人会控制人类,人工智能的发展已经到了前所未有的高度。
数据治理和人工智能,看似不相关的两个词,他们两者放一起,会发生什么故事呢。
Part 3
确保数据质量和安全是发展人工智能的第一需求
如今,企业对于全面数据治理的需求从未如此强烈。监管机构希望企业能更加清晰地了解数据,对它进行有效的管控;企业管理层希望理清数据资产,降低数据应用的复杂性,对企业进行更高效的管理;企业员工也开始认识到数据的重要性,更多地采用数据驱动的方式来开展工作。数据治理正迅速发展成一种企业核心策略,只有做好数据治理,让数据更加准确完整,并且安全合规,才能释放出数据的无限潜能,挖掘出更多有价值的数据应用。
而人工智能技术在应用和实践中,确保数据质量和数据安全是最基础的底层保障。由于人工智能的落地应用效果会受到数据质量和安全的影响,更多的企业开始反思并转而去推动数据质量和安全的提升,提供数据质量和安全评测工具,建立好的数据环境,再进行人工智能应用的同步研发。
大数据是人工智能技术研发、训练的关键,是人工智能长期发展的重要保障。只有当人工智能系统能够获取更为准确、及时、一致的高质量数据,才能提供更有效、有用、精准性高的智能化服务。根据埃森哲在2018年4月的一份调研发现,中国制造企业在运用人工智能技术时面临一系列挑战。其中,52%的受访中国企业将数据质量列为突出挑战,数据安全与网络安全紧随其后(47%)。在2017年4月的一次研讨会上,围绕人工智能话题,华为任正非提出:“高质量的数据是人工智能的前提和基础”。当前,不管是人工智能技术的研发,还是人工智能应用领域的发展,“数据质量”都是一个不可或缺、位于重中之重的要素。
人工智能发展的另一个重点保障就是数据安全,人工智能系统的基础是大数据,要对外提供服务,就会涉及数据的安全保护,在这个过程中,一系列的数据安全防护手段是必不可少的,如数据脱敏管理,对敏感信息的风险评估、使用监控,对数据的泄露检测,数据库保密检查等。人工智能需要海量的数据,人工智能技术的进步取决于各种来源数据的可用性,如何确保这些数据的安全性与保证用户数据的隐私性是数据质量之外又一个重要问题。同时,通过对业务数据应用语义计算、数据挖掘、机器学习、知识图谱、认知计算等人工智能技术,也可以促进企业数据安全保障体系完善。因此,数据安全和人工智能两种技术起到了相互促进、相互完善的作用。
Part 4
搭借AI东风 传统数据治理悄然向“智能化”升级
经过多年的理论更新、技术演进和应用实践,与前些年前相比,如今的数据治理从概念到技术已经发生了很多变化。特别是随着这一波人工智能浪潮的重新兴起,数据治理技术和人工智能技术在一些方面也开始有了结合使用,应用了人工智能技术的新一代数据治理可以称之为“智能化数据治理”。
数据治理工作中,可以通过对大数据应用机器学习技术,作数据挖掘和分析,来识别哪些可能是用户隐私性数据、哪些数据可能有异常,一旦数据特征被确认,打上标签,未来再做数据管理时,就可以使用元数据管理的方法机制,对外提供服务。比如当碰到涉及的某特殊标记数据,就会有相应的流程启动,或在相关的数据对外服务提供过程中,一旦数据涉及个人隐私,则一定要小心处理,以避免引起政策方面的风险。通过上述应用,可以增强大数据系统数据安全管理和元数据管理的能力。
另外,也可以在针对大数据开展数据质量核查过程中,配合传统根据预置的质量核查规则进行核查的方式,仅针对少量核心核查规则,从大数据中选取训练数据样本,经过预处理,利用机器学习算法进行深度分析,提取公共特征和模型,可以用来定位数据质量原因,做数据质量问题的预测,并进一步形成知识库。这样就可以更进一步增强大数据系统数据质量管理的能力。
对于数据模型的管理,机器学习技术可用来分析数据库中数据实体的引用热度,通过聚类算法自动识别数据模型间的内在关系,还可以用于数据模型质量的检测和评估。对于非结构化数据的管理,像文档内容,图像,音频,视频,更是可以充分利用人工智能中的自然语言处理、图像识别、语音识别、视频处理等技术。
Part 5
大数据治理如何全面拥抱AI
大数据治理,顾名思义,即基于大数据的数据治理。大数据,一般指符合4V特征的数据,包括社交数据,机器数据等,大数据对传统数据治理工作带来很多的扩展。在政策和流程上,大数据治理应覆盖大数据的获取、处理、存储、安全等环节;在数据生命周期管理各阶段,如数据存储、保留、归档、处置时,要考虑大数据保存时间与存储空间的平衡;大数据量大,因此应识别对业务有关键影响的数据元素,检查和保证数据质量;大数据还需要定义与其内容相关的元数据,需与传统数据定义标准保持一致,术语字典应包含大数据的术语,需要为非结构化数据提供分类、语义支持,Hadoop、NoSQL数据库的技术元数据也同样需要纳入元数据存储库管理;此外,在隐私方面,应考虑社交数据的隐私保护需求,制定相应政策,还要将大数据治理与企业内外部风险管控需求建立联系。
数字化时代,大数据治理应该如何和人工智能技术深度结合,人工智能技术在大数据治理领域能有哪些应用,下面提供一些简单的思路。
当前已经有许多行业信息安全解决方案都开始使用机器学习算法来识别潜在的系统攻击,通过机器学习可以建立用于检测异常情况的“正常”行为的基线,一切不符合基线标准的异常情况都能及时预警和处理。
互联网企业使用机器学习,分析用户点击过哪些链接,为用户生成画像,打上特定的标签,来做商品、内容的推荐和优化用户搜索结果。这些描述用户消费形为、兴趣偏好特征的元数据信息,已经成为互联网企业得以生存发展的核心数据资产。
在金融行业,银行信用卡发卡部门很早就开始利用机器学习技术,来识别不合规的申请人、虚假申请信息以及可能存在欺诈性的交易行为。此外,既然机器学习可以识别信息系统中的异常数据,那它也可以检测制成品或食品中的异常情况。企业可以通过将实体物品生产过程数字化,然后使用经过训练的机器学习系统来识别不符合标准或规格的产品数据,挑出异常数据,从而部分替代人类检测员的工作。
近年来,利用机器学习的人脸识别系统能力一直在提高,已经大量应用在识别已知的犯罪分子、员工上班考勤、或者识别公共场所中超出规范或违反法律的行为或活动。而医疗行业,则可以利用机器学习工具,通过对大量纸质和图像病例资料的训练学习,构建医疗知识库,辅助专业医护人员,诊断疾病并提出最有效的治疗策略。
各类社交网站每天都在产生着大量非结构化数据,企业可以利用机器学习技术来实时发现和识别潜在的问题,手写识别、语音转写、自然语言处理技术也在不同场景中大量应用,可以提高人们识别、理解和处理非结构化数据的能力。
企业可以充分利用人工智能技术,以信息化、自动化方式,共享和开放一部分数据或数据加工结果,对外提供服务,提升企业竞争力。最典型的就是现在各种客户服务机器人,可以使用自然语言处理技术处理回答客户提出的常见问题,并随着时间的推移提高答案的质量。据悉,中国移动客户服务系统中机器服务的比例已经提升到了20%。
另外一个常见的应用领域就是营销推荐,在许多行业中,将适合的产品投放到正确的位置对于商业成功至关重要。机器学习系统可以使用企业收集的用户数据,根据用户过去的购物习惯预测可能喜欢的物品,再将预测结果数据向企业电商系统或销售决策系统开放。Facebook前科学家Jeffrey Hammerbacher曾感叹道:“我们这一代最聪明的大脑,没有花多少精力思考如何利用人工智能改善人们的生活,而是思考怎么让人们点击更多广告…”。
物联网(IOT)的大发展提供了许多潜在的机器学习使用场景,其中就包括预测性维护,企业可以使用历史设备数据开展预测分析,推断机器可能发生故障的时间,使其能够在影响业务运行之前主动进行维修或安装更换部件。对于物流企业来说,设置时间表和路线是一件复杂而费时的工作,机器学习系统可以通过对交通数据的分析和监控,帮助企业规划货物运输路线及计划,提出最有效和最具成本效益的方法。
另外,在金融市场交易中,每个交易者都希望在市场上找到能让他们低买高卖的模式,大的金融机构更是花费重金,使用人工智能技术针对金融交易数据做深度的分析挖掘,打造自己的量化交易系统,以期望能在变幻莫测的市场风云中更早一步识别潜在的风险和机会。
Part 6
2018年5月,中国国际大数据博览会上,中国科学院院士梅宏发表演讲中表示,大数据治理体系建设是我们国家实施大数据战略的重要保障,是发挥大数据作用,做大做强大数据产业的重要因素,也是关键基础。当下,做人工智能的企业很多,人工智能的基础就是大数据,数据首先要能互通、共享,如果数据不通,标准不一致,质量不高,就很难做分析、建模,更谈不上预测的准确性。开展数据治理则能为企业提供一个高质量的数据工作环境,促进人工智能技术的研究和实践。总之,数据治理是人工智能的基础,想做人工智能,需要先把数据治理这个基础打好。
对大型科技企业来说,面对日益激烈的竞争环境,企业亟需进行数字化转型,一方面要做好数据治理,另一方面,数据治理政策也对人工智能发展发挥着重要的影响。
作为欧盟“史上最严”的数据保护法规,备受关注的《通用数据保护条例》(General Data Protection Regulation,GDPR)于2018年5月25日正式生效,相关组织机构需于该生效日起遵照新规行事。一方面,GDPR适用的地域范围不仅限于欧盟境内,也适用于提供业务给欧盟境内个人的境外组织机构;另一方面,GDPR在全面加强个人信息保护、强调用户知情权、访问权和被遗忘权的同时,对相关组织机构提出更为严格的合规要求,并以最高罚没其全球营业额的4%或2千万欧元(以金额较高者为准)为条例的施行保驾护航。
GDPR的制定者认为,在大数据时代,隐私权就是人权。根据这一条例,个人消费者可以享有更多权力,并通过对违规行为的严厉处罚,更好地保护消费者的数据资产和个人隐私。但同时, GDPR将会对国内互联网及商业科技公司会产生长远的影响。有业内人士表示:“如果欧盟对GDPR的执行力度非常严,中国企业会“中枪”99%的条款。”对以消费者数据应用为主要业务的国内科技公司来说,更不可能成为例外。GDPR是一部重整全球数据秩序的法令,将成为未来全球网络空间规则的基石。GDPR对基于个人信息搜集和隐私驱动的中国互联网产业收入模式将产生重大影响,甚至可能是颠覆性的影响。
此外,我国对个人信息保护方面,《信息安全技术个人信息安全规范》于2018年5月1日的正式实施,已经对我国科技公司产生了实质性的影响。过去几年,随着我国大型科技企业在人工智能领域突飞猛进的发展,从支付领域的身份识别(人脸、指纹、虹膜、语音识别)到信贷领域的大数据风控,我国科技企业通过使用消费者数据,提供了智能化服务便利性的同时,由于法律制度和文化环境等因素,在保护消费者隐私的合规性方面做得还不到位。
未来,以欧盟为代表的监管者,拿着“GDPR”大棒,随时对违规企业进行处罚。在这种内外多重因素的推动下,开展数据治理,以及对数据治理的政策研究和应对,将成为企业人工智能技术应用过程中亟待解决的重大问题。
Part 7
管理数据资产,决胜智能时代
随着数字时代的到来,企业在开展数据治理和人工智能研究研发工作中,两者的结合必不可少,近年来一些互联网企业在享受人工智能技术红利的同时,存在数据认知不清、数据治理不当、客户隐私数据使用不合规等现象,出现了不少负面事件。要防止大数据和人工智能的滥用和失控,应该从人工智能的源头 – 大数据上开始建立科学的数据治理体系,包括数据的质量规范、制度政策、管理流程、职责定位和技术管控工具。数据治理体系是对商业价值和用户隐私,以及企业长期利益和短期利益选择的基础,建立数据治理体系是一个长期的过程,对于大型科技企业,都应当在数据治理的规范和约束下应用大数据,挖掘数据资产价值,提供人工智能服务。
结语
数据治理是人工智能的基础,数据治理的目的是在业务价值驱动下提供高质量的大数据,而人工智能本身是大数据应用的一种商业模式,数据治理和人工智能就好比一枚硬币的正反面一样密不可分,数据治理强调修炼内功,人工智能侧重预测未来。
数据安全管理
元数据管理
数据质量管理
非结构化数据管理
数据共享开放
数据资产分析
让懂数据治理的人来做人工智能
上一篇:5G核心网,到底长啥样?