科幻元年2020年马上就要来了。对于技术行业来说,这一年会有哪些值得期待的变化?
KDnuggets采访了14位科技前沿的技术公司创始人,并汇总了他们眼中的2020年:关于人工智能、数据分析、数据科学、机器学习行业中的一些最具创新性的公司的预测。
Alluxio创始人兼CTO李浩源:一个机器学习框架适合任何场景
带有模型的机器学习已经到了一个转折点,各种规模和各个阶段的公司都在努力训练他们的模型。朝着实施其模型培训工作的方向发展。尽管有几种流行的模型训练框架,但领先的技术尚未出现。
就像Apache Spark(专为大规模数据处理而设计的快速通用的计算引擎)被认为是数据转换工作的领导者和Presto(Facebook开发的数据查询引擎)逐渐成为交互式查询的领先技术一样,PyTroch和Tensorflow同样会作为2020年的竞争者来主导机器学习广泛的模型训练领域。2020年可能是我们看到领先者的一年,它打败PyTorch和Tensorflow作为,并将在更广泛的模型培训空间中占据主导地位。
K8s法分析堆栈
尽管容器和K8s在无状态应用程序(例如Web服务器和自包含数据库)上表现出色,但在高级分析和AI方面,我们还没有看到大量的容器使用。
在2020年,我们将看到在Kubernetes(简称K8s,提供了应用部署,规划,更新,维护的一种机制)领域承担AI和分析工作负载将变得更加主流。K8s法分析堆栈将意味着通过将数据从远程数据孤岛移到K8s集群中来解决数据共享和弹性问题,以实现更严格的数据局部性。
AI和分析团队将合并作为一个新数据组织的基础
昨天的Hadoop平台团队是今天的AI和分析团队。随着时间的流逝,出现了许多获取数据见解的方法。人工智能是结构化数据分析的第一步。过去的统计模型已经与计算机科学融合为人工智能和机器学习。
因此数据、分析和AI团队需要合作,从他们共有的数据中获取价值。这将通过构建正确的数据堆栈来完成,在本地或云端或同时部署存储孤岛和计算将成为规范。2020年我们将看到更多组织围绕此数据堆栈建立专门的团队。
Alteryx首席数据和分析官Alan Jacobson:数据民主化脱颖而出
2020年将是数据最终实现民主化的一年。在经历了过去几年的酝酿之后,数据分析从数据科学团队转向各行各业并趋于饱和整个业务的全面饱和,这一趋势最终将会陷入僵局。这种自适应的数据项自助服务革命将改变各个行业组织与数据交互的方式,弥合具有业务知识的人与具有数据知识的人之间的鸿沟。
借助易于使用的API和大量数据源的结合,自主助服务分析将应用于成为数字转换最重要的阶段之一,数据集成。典型的数据工作者开始从IT领域转移到业务领域,从而导致大量的工作者执行数据任务。结果将是处理更多的数据,进行更多的分析,最终对业务产生更大、更积极的影响。
Appen的首席技术官Wilson Pang
NLP的进步使聊天机器人得以广泛采用,并为用户提供在线问答等服务
今年和去年,我们已经看到了NLP(自然语言处理)的一些突破。例如,BERT扩展了NLP模型现在可以实现的功能。我们将在2020年看到越来越多的AI应用程序,如服务聊天机器人、在线问答、情感分析等。
机器学习工具和AIOps在企业中获得了更大的吸引力
在过去的几年中,我们目睹了整个机器学习和AI工具生态系统的成熟。围绕整个技术堆栈的工具,比如数据注释、模型训练、调试、模型服务、部署和生产监控。这些工具明年将会大量增加。
为了帮助管理所有这些工具,更多的公司将在2020年转向AIOps(基于人工智能的智能运维)的实践。大型公司的平台(例如AWS,GCP和Microsoft Azure)已经具有支持AIOps的良好工具,但是许多财富500强公司仍对部署到这些平台所在的云中持谨慎态度。
安全和道德最佳实践推动了更多本地AI部署
随着越来越多的组织针对其AI计划试验更多数据,对AI的安全性和符合道德规范地使用将变得越来越重要。在这个领域中,最主要的担忧是数据泄漏,尤其是个人身份信息(PII),新产品构想和专有信息。这些担忧将导致出现更多用于保护AI创造建的本地解决方案,包括数据注释和实现利用多元化人群的数据保护安全措施的解决方案。
确保安全的数据实践只是越来越符合道德规范的AI使用方法的一部分。这种方法还将包括关心人群的健康,并更仔细地考虑AI应用程序将如何影响使用它们的人,或者说,AI将如何让提升人们的生活质量旨在改善人们生活的方式。
Caserta的创始总裁Joe Caserta
2019年企业领导者认识到仅使用最强大的分析平台来创建报告是不够的。2020年将从人员,流程和技术的角度来实现更深入的成熟度分析。企业将开始发掘创新如何进行数据发现和实现商业智能(BI),并开始使用数据蜘蛛,机器人,人工智能和NLP来查询数据并更快地获得见解。我们即将迎来一场数据革命,它将彻底改变当前的格局,并把推动现代数据工程的发展推向其高潮。
机器数据智能平台Circonus的CEO,Bob Moul
物联网数据的价值的实现-大规模分析物联网数据所产生的决策将带来巨大的商机,有助于降低成本,减少停机时间,并在问题发生之前采取措施预防问题。
容器可观察性-在过去的几年中,许多人深入研究Kubernetes,学习并进行概念验证。到2020年,我们将看到大量此类部署上线,并与企业内部的DevOps(数据化运维)功能紧密结合,需要注意的是容器环境会发出大量指标,许多传统监控产品将因无法满足处理高基数的要求而无法使用。
物联网的增长需要一种创新性的存储解决方案,Gartner预测到2020年将有大约200亿个物联网设备。随着物联网网络的膨胀和技术上的突飞猛进变得越来越先进,管理它们的资源和工具也必须做到这一点。公司将需要采用可扩展的存储解决方案来适应数据的爆炸式增长,这个解决方案的存储容纳、处理数据以及提供洞见的能力都要远超现在的技术。
监视基础结构的复杂性增加-在诸如蓝绿色部署(是一种可以保证系统在不间断提供服务的情况下上线的部署方式)之类的DevOps技术实践的推动下,我们将看指标量将大幅度增加。
当你想利用这些技术并将其与快速CI(Continuous Integration,持续集成)/ CD(Continuous Deployment持续部署)结合使用您采用这些实践并将其与快速CI/CD结合使用时,你会发现已经有好几种组合版本供你挑选了。您会看到一些敏捷组织今天发布了十几种版本。然而,我们仍需要对这些技术工具进行重大改进以适应现代化进程更改以帮助支持这些用例。
dotData CEO兼创始人,Ryohei Fujimaki
在2019年,AutoML受到了越来越多的关注,因为各个机构组织已经意识到自动化机器自动学习(AutoML)尽可能多的数据科学的潜力能力和需求。但是传统的AutoML还受到高度人工化手动和巨大时间消耗的成功设计AutoML所需功能的过程所花费的大量时间的限制和阻碍。
2019年也是AutoML 2.0兴起的一年,也它是AutoML的新起点:体验的新迭代,它使用AI来利用关系数据集中的原始业务数据来自动创建特征并进行测试,评估和评分功能,然后自动和传统的机器学习算法做一比较。然后根据机器学习算法对其进行评估。
随着越来越多的组织机构供应商加入AutoML 2.0培训,我们预计到2020年数据科学全周期自动化的趋势将加速。2020年的另一个大趋势将是ML管道的运营和产品化,在已经进行的早期MLOps试验中,尽可能多地实现自动化变得越来越重要。
Infoworks CEO, Buno Pati
使用数据的能力将加速整个经济领域的洗牌,比过去更快地分出胜负
新挑战者的崛起速度将比未来十年更快,而现任领导人的崛起速度也将与之前一样。BCG(波士顿咨询公司,是世界领先的商业战略咨询机构)的研究表明,如今,对于大型公司而言,过去、未来的财务状况和多年的竞争绩效之间的关联现在越来越少。
目前,所有行业的数据科学家都将80%的时间花费在低价值活动上,例如提取数据,增量更新数据,组织和管理数据,优化管道以及将数据交付给应用程序。数据科学家仅将20%的时间用于开发应用程序,以实现业务的进一步增长和增加竞争优势。那些通过新的,自动化的数据操作和方法来使用数据功能的人将会蓬勃发展,因为他们将其数据科学的天才人才应用在创造业务价值上。
数字化转型的影响将在整个经济领域体现:预期的(技术,金融服务,零售/电子零售等)和意想不到的(农业,家居装修,公共部门等)方面。
随着下个十年隐私法的发展,消费者对“个人”数据的更具控制力
GDPR和CCPA(加利福尼亚消费者隐私法案)只是保护消费者和消费者的数据的冰山一角。在接下来的十年中,随着政府和监管机构制定新的隐私法规,消费者对个人数据的控制有望大大提高。
随着时间的流逝,这些监管措施可能会使消费者对个人数据有完全控制权,并为消费者提供直接将其数据货币化或交换商品和服务的机会。
清洁能源运动将在下一个十年创造大量的数据和新的分析方法
现在,美国增长最快的行业是太阳能和风能,未来十年中,这些行业的就业增长预计将是其他行业的两倍。(来源:加州第十七国会区的美国代表Ro Khanna)这些行业的技术进步使成本下降,并引发了清洁能源运动,在过去九年中使全球可再生能源产能翻了两番(来源:环境署)。
这比美国每个发电厂的总和还要多,它将创造大量的数据和新的分析方法,以期在未来十年最大化收益并优化利用这些技术发展。管理和利用这海量的数据将需要用于操作和编排的复杂系统,这些系统将超越过去的人工密集型方法,数据驱动的流程和见解使数据科学家能够专注于最佳和最高水平的智慧的人才使用,推动行业的持续增长。
来自Izenda
如果2019年重点在机器,那么2020年将更关注于用户。今年,数据分析中的AI和机器学习产生了比以往更快(更有价值)的结果。下一步是使该过程民主化:降低高技能工人的数据项目负担,赋予非技术用户同样的数据处理分析能力。
未来,无需雇用其他分析师,无需培训查询语言,用户将能够像使用Google一样轻松地浏览数据。
数据科学的民主化
通过文本或语音进行自然语言处理将有助于促进“公民数据科学家”的发展。尽管一些BI工具已经在其平台中添加了NLP功能,但仍有一件事不确定:定价。
2020年,将开始出现人们负担得起的SaaS(Software as a Service,意思为软件即服务),即通过网络提供软件服务BI工具,拥有售价价值数万美元的工具的功能。机器学习和自助服务的完美结合,将为各种规模的企业提供在数据中发现可行计划的能力。
Lexalytics首席执行官Jeff Catlin
作为以经营文本为中心的AI/ML业务的人,2019年出现了两种趋势:BERT和XLNet等模型逐渐的渗透到该领域,同时,数据科学家的重心从自己动手转向更多地利用AI工具或平台解决问题。以及数据科学家从自己所编写的内容开始的枢纽—使用AI工具和平台解决问题。
这两种趋势两者是相关连的:虽然BERT可以通过改变一小部分训练数据来提供出色的结果,但它却改变了游戏规则,要精通它是很难的技术提升,因此,它成为包含所有内置管道的平台的关键。虽然BERT模型作为游戏规则的改变者可以仅使用小部分训练数据就得到出色的结果,但是,它是如此的复杂以至于技术人员很难掌握,于是,对各种AI工具和平台的熟悉就显得很有先见之明。
2020年,人工智能将巩固其作为下一个十年的决定性技术的地位。玩家将找到到“神奇”的角度,传达正确的信息,即AI可以帮助人类更快,更好地完成工作。此外,NLP也将成为RPA(Robotic Process Automation,机器人流程自动化)的重要组成较大部分,因为供应商在NLP中非常落后。随着企业自动化程度的提高公司自动执行更大的流程,NLP供应商将提供本地+混合云服务来满足用户需求:易于集成的API,可定制性的,快速的ROI。
MathWorks产品管理高级经理Bruce Tannenbaum
AI轻松贯穿整个工作场所
随着与AI相关产业行业的进一步发展,AI不仅将会在该技术将超越数据科学领域,而且会在并对医疗设备、汽车设计和工业场所安全等领域方面产生深远影响。
AI将涉足低功耗,低成本嵌入式设备
明年,我们将见证AI涉足在低功耗,低成本设备。人工智能通常使用浮点运算数学来简化模型训练并提高结果的准确性和简化模型训练,因此它和但它不能使用定点数学的低成本,低功耗的定点运算设备不兼容。软件工具的最新进展现在支持具有不同级别的定点数学的AI推理模型。不过,如今的软件已经支持AI模型进行好几种级别上的定点运算了
强化学习从游戏领域转向现实工业应用领域
2020年,强化学习(RL)将从游戏领域转向支持现实世界的工业应用,尤其是自动驾驶技术,控制设计和机器人技术。可以预见的是,强化学习将会在改善自动驾驶系统领域取得巨大成功。将RL用作改进大型系统的组件时,例如在自动驾驶系统中提高驾驶员性能将会成功。
仿真数据提升降低成功采用AI的难度-数据质量
根据分析师的调查,数据质量差是成功使用AI的最大障碍。正常的日常系统的一般运行操作会生成大量可用数据。但是,从异常值或关键或故障临界值条件中查找数据往往更有价值。训练准确的AI模型需要大量此类数据,而仿真数据降低成功采用AI的难度此时,仿真模型生成的数据不仅降低了数据收集的成本还在很大程度上提高了数据质量。
Percona首席体验官Matt Yonkovit:数据库将更自动化
在数据库领域,尤其是在云领域存在技能短缺问题。越来越多的公司希望利用他们的数据,但发现很难以他们想要的速度成功地运营。选择数据库与应用程序一起运行的开发人员只希望它们能够工作而无需承担管理职责。因此,必须成为DBA才能实现这一目标。
在管理和维护数据库系统尤其是云端数据库系统的过程中存在技术短板。更多的企业想从数据中发掘有用信息,然而往往并不如愿。这些企业把数据迫切地收集来想要得以致用而缺少专业的数据库管理员来合理地管理这些数据。
过去,数据库供应商已通过启动更多托管服务来解决问题,但是,这会将问题转移到其他地方。尽管企业已经通过委托一些管理机构来解决此问题,但是,这本身也会产生一些问题。
今年,公司开始讨论如何自动化数据库管理并使其具有自主性和自我修复能力。这是今年甲骨文大会Oracle客户会议上的一个重要议主题,而我们已经在Percona数据库上做了一些尝试已经启动了自己的计划,以使云中的数据库更加“自治”。企图使云端数据库的管理更加自动化。
明年,更加智能的数据库管理服务将变得可行并更上发展速度。然而,我们更应该关注这种自动化服务程序的设计和普适性能,因为即使再优秀的程序也无法面面俱到。
Sisu首席执行官Peter Bailis
眼下是数据科学的黄金时代,通过与客户的交流,我们预见了2020年的四大转变趋势:新的数据堆栈分析将崛起、对数据的深入诊断将代替浅显的数据挖掘、会出现更实用层面的数据需求以及新的岗位角色——运营分析师。
更新更灵活的分析堆栈的兴起
从对Redshift,Snowflake和BigQuery之类的云数据仓库进行投资开始,公司还将采用现代化的数据管道和ETL工具(如Fivetran和Stitch)将更多数据集中到这些结构化存储解决方案中。下一步呢?重建其诊断工具,以应对大量数据的涌入。Redshift, Snowflake, and BigQuery等平台的出现表明企业已经开始向云数据库投资了,接下来企业将接纳更多的现代化数据管道以及类似于Fivetran和Stitch的ETL(Extract-Transform-Load,即将数据从来源端经过抽取、转换、加载至目的端的过程)工具将更多的数据汇集到这些结构化的存储方案中。因此,下一步,企业将要重建诊断软件来处理大量涌入的数据。
企业一般需要实时的处理同时来自数个数据源的数据,数量之大可想而知,IT和数据团队可以从以下几个层面来优化分析构架:
云端数据仓库,例如Snowflake,BigQuery,Redshift或Azure
数据流水线工具,如Fivetran和Stitch
灵活的查看和报告工具,例如Looker
诊断分析工具以增强分析师和商业智能团队的能力
2020年以后,数据治理将重归前沿回到最前沿。随着分析和诊断平台的扩展,从数据中获取的信息将在企业中更广泛无缝地共享,数据管治理工具会将有助于确保数据的机密性,使用合理性正确使用和完整性。2020年,公司使用和感知分析方式将会转变。
诊断工具
随着结合这种基础结构的变化,董事会会开始关注指标为何更改以及这些更改对于日常业务运营意味着什么。有效使用数据来构建(和交叉)壁垒将是成功的公司的竞争性资产。在有效利用数据方面,企业之间已形成竞争局面,数据已经成为企业的竞争性资产而非被动资产。
运营分析师的崛起
数据分析的未来是运营分析师的崛起。数据不再只属于数据科学家。企业员工开始像数据分析师一样工作,针对特定业务的新技术能和工具即将出现。分析趋势,变化并使用数据做出有影响力的决策将成为对新的员工要求和期望,而不再局限于业务分析师或市场营销分析团队。
StreamSets产品副总裁Kirit Basu:DataOps将在2020年获得认可
随着企业2020年以后开始大规模扩张以及野心的增长,DataOps将被视为克服与分析现代数据变化的速度,分散性和趋势轨迹的有力工具。在Gartner上,“DataOps”的搜索量在2019年翻了三倍。此外,已经可以通过StreamSets(强大的数据清洗平台),我们发现了有大量用户已经接受了DataOps。
一些企业公司正在通过DataOps进入这一领域,还有一部分企业他们通过收购小规模公司来,建立以数据管理为核心的业务。许多DataOps职位开始出现,人们在实践中加深了对“DataOps”这个专业术语的理解,并使之成为了数据驱动组织的代名词。所有这些依靠对“DataOps”的新理解和对术语的认识,以此来成为数据驱动型企业。
StreamSets联合创始人兼CTO,Arvind Prabhakar:企业需要填补Apache Spark技能的空白
2020年,越来越多的可以解决公司核心业务问题并从数据中发现价值的技术将会应运而生,且无需对Apache Spark做技术深入了解。企业将无需具备专业技能便能利用Apache Spark之类的工具。这将使其实现对数据的连续读取和监测,并分析每个商业决定和应用对业务带来的影响。