皇上,还记得我吗?我就是1999年那个Linux伊甸园啊-----24小时滚动更新开源资讯,全年无休!

数据预备管道:策略、选择和工具

作者 Srini Penchikala ,译者 薛命灯

数据预备是数据处理和数据分析的一个重要组成部分。业务分析师和数据科学家把80%的时间花在收集数据和准备数据上,而不是用于分析数据或开发机器学习模型。Kelly Stirman在上周举行的2017企业数据世界大会上分享了有关数据预备的最佳实践。

Kelly解释了数据预备与数据集成之间的不同点。数据预备一般是由业务分析师来完成的,他们使用AlteryxTrifactaPaxata这类工具进行数据预备。而数据集成是一个IT工具,一般由IT团队来完成,他们会使用Informatic、SAS、SQL或者来自IBM的集成工具进行数据集成。

数据集成已经很成熟也很健壮,并已经与企业标准、安全和监管控制集成到一起。数据集成是基于服务器的,所以一般是集中式的,并且具有可伸缩性。不过它也有一些限制,它只是面向IT人员,对数据的质量要求不高。对于企业来说,数据集成已经很成熟,但是对于云平台、第三方应用、Hadoop和NoSQL数据库来说还没有达到相同的成熟度。

相反,数据预备更看重速度、易用性,并能够以更快的速度创造价值。它是基于以数据为中心的模型(相对于以元数据为中心的模型),同时适用于IT人员和业务人员。它支持不同的数据处理环境,如Hadoop、NoSQL数据库、云平台,以及机器学习。它的局限性体现在:不成熟的技术栈、有限的集成和技能生态系统、不完整的安全集成,以及对IT和协调流程的依赖。

Kelly分别为业务人员、数据科学家和软件开发人员介绍了各种开源和商业工具,并比较了这些工具的优点和缺点。其中的开源工具Apache SparkPandas(Python)和dplyr(R)可以帮助数据科学家和开发人员进行数据预备。

在选择数据预备解决方案和工具时,可以考虑如下因素:可用性、协作、许可模型、监管、复杂性、供应商以及生态系统。

查看英文原文:Data Preparation Pipelines: Strategy, Options and Tools

转自 http://www.infoq.com/cn/news/2017/04/stirman-data-preparation