图片来源:http://pxhere.com/zh/photo/979361
物联网、大数据分析、人工智能和其他数据相关技术的有效性在很大程度上依赖于它们处理的数据质量。
您可以拥有最复杂的算法,您也可以拥有最强大的硬件架构,您更可以拥有最有能力的数据科学家和研究人员,然而,您的分析或人工智能计划仍然会失败。为什么?最有可能的答案是缺乏干净、高质量的数据。也就是说,数据的质量决定了任何依赖于它的应用所获得结果的好坏。
使用任何未经过滤、未组织和不干净的数据将导致不准确、不理想的结果。由于这些应用可以推动关键业务决策,因此其输出的任何不准确性都有可能导致无效的操作,而且,根据应用程序的复杂性,使用不干净数据的结果可能比无效操作更糟糕,例如,在不良数据上训练人工智能系统可能会导致极其扭曲的反应。
因此,确保用于人工智能分析和培训的数据没有错误、偏差和其他不良成分是确保这些工具无风险运行的必要条件。
什么是不良数据?
不良数据虽然没有准确的定义,但却有许多形式或特征。不良数据可以是任何数据,它给出的情况及描述不太清晰,从而导致任何决策都不理想。由于不良的信息比没有信息更糟糕,不良的数据会导致在错误的假设和前提下做出决策,从而导致从轻微的失误到彻底的灾难性决策。以下是不良数据的几个主要特征:
不良数据不准确
如上所述,不准确数据比没有数据更糟糕。由于多种原因,主要是手工数据输入,导致存储在企业数据库中的数据不准确。因此,它并不代表它声称准确代表的状态或情况。这些错误不容易被发现,除非出现不合理的结果。不准确数据的影响可能会很严重,具体取决于数据的关键程度及其用途,例如,在医疗保健应用中使用不准确数据可能会对人类生命造成严重伤害,更不用说影响相关组织了。
不良数据不完整
不完整的数据和不准确的数据一样糟糕。这是因为类似于不准确的数据,它没有给决策者错误的画面,而是给了一个不完整的画面。因此,不完整数据会导致缺乏根据的决策。
不良数据不一致
当数据来自不同的位置、不同的硬件或不同的平台时,数据库中可能会出现不一致。这意味着用于分析的数据库或输入到人工智能算法数据库中的数据可能包含以不同格式存储的信息,从而导致解读错误。这可能导致对正在考虑的主题或情况的分析出现偏差,并再次导致错误的决定和结果。
不良数据是无效的
用于分析或任何其他目的的数据应与正在做出的决策或正在解决的问题尽可能相关。相关性可以是日期、位置或任何其他变量参数。比如,用来自欧洲客户情绪调查报告的数据来衡量亚太地区的客户情绪,那么这些数据将是无效的。虽然数据并非完全不准确,但它仅在特定的约束和条件下才是准确和有效的。
不良数据是重复的
尽管重复数据似乎是一个无害的缺陷,但非唯一的记录可能和其他记录一样是个大问题。使用此类数据库是不合适的,因为分析此类数据库中的大量数据可能会产生与使用不准确数据相同的结果。
不良数据如何影响人工智能、分析和业务?
使用不良数据进行分析意味着会做出不良的决策,或者至少是不明智的决策。在商业环境中,它意味着非盈利的决策和行动。据估计,仅在美国,不良数据每年的损失就超过3万亿美元。使用这些数据做出决策无异于盲目猜测。依赖使用不良数据的分析是一个很大的风险,使用类似的不良数据来训练和驱动人工智能算法会导致灾难性的后果。这是因为,人工智能算法除了能够分析数据外,还能够在没有人为干预情况下对分析结果采取行动。人工智能的自主行为能力意味着使用不良数据的效果只有在事实发生后才会变得明显。根据分配给人工智能的任务,这种影响可能是灾难性的,例如,如果与特定患者的病史和健康状况相关的数据不正确,那么使用人工智能为患者提供药物建议可能会出现严重错误。同样,用于通过支持决策来管理企业运营的人工智能系统必须具有良好、高质量的数据,任何不准确、不完整、不一致和无效的数据都会导致糟糕的决策。
如何利用人工智能进行数据清理?
数据清理尽管很重要,但它可能是困难的、耗时的、低效的,而且可能是无效的。为了使清理过程更有效,数据科学家可以使用人工智能进行数据清理。企业可以使用人工智能在更短的时间内清除大量数据,以确保数据的一致性、完整性和有效性。人工智能还可以帮助使用插值和插补等统计技术来处理不完整的数据集。这可以确保基于现有值合理估计缺失的值,以保持数据集的完整性。企业可以通过人工智能自动化数据收集、数据验证和数据清理的整个过程,以确保相关人员随时可以访问正确的信息。
因此,好数据和人工智能之间存在明显的相互依赖关系。企业应该认识到这一点,并且在投资于更好地利用数据进行业务决策的同时,还应该投资于清理所使用数据的工具。人工智能可能无法完全取代数据科学家的角色,但使用人工智能进行数据清理肯定可以让他们的工作更轻松,并帮助他们提高效率。
来源:bbntimes
编译:物联之家(iothome.com)