数据预备管道：策略、选择和工具-Linuxeden开源社区

作者 Srini Penchikala ，译者 薛命灯

数据预备是数据处理和数据分析的一个重要组成部分。业务分析师和数据科学家把80%的时间花在收集数据和准备数据上，而不是用于分析数据或开发机器学习模型。Kelly Stirman在上周举行的2017企业数据世界大会上分享了有关数据预备的最佳实践。

Kelly解释了数据预备与数据集成之间的不同点。数据预备一般是由业务分析师来完成的，他们使用Alteryx、Trifacta和Paxata这类工具进行数据预备。而数据集成是一个IT工具，一般由IT团队来完成，他们会使用Informatic、SAS、SQL或者来自IBM的集成工具进行数据集成。

数据集成已经很成熟也很健壮，并已经与企业标准、安全和监管控制集成到一起。数据集成是基于服务器的，所以一般是集中式的，并且具有可伸缩性。不过它也有一些限制，它只是面向IT人员，对数据的质量要求不高。对于企业来说，数据集成已经很成熟，但是对于云平台、第三方应用、Hadoop和NoSQL数据库来说还没有达到相同的成熟度。

相反，数据预备更看重速度、易用性，并能够以更快的速度创造价值。它是基于以数据为中心的模型（相对于以元数据为中心的模型），同时适用于IT人员和业务人员。它支持不同的数据处理环境，如Hadoop、NoSQL数据库、云平台，以及机器学习。它的局限性体现在：不成熟的技术栈、有限的集成和技能生态系统、不完整的安全集成，以及对IT和协调流程的依赖。

Kelly分别为业务人员、数据科学家和软件开发人员介绍了各种开源和商业工具，并比较了这些工具的优点和缺点。其中的开源工具Apache Spark、Pandas（Python）和dplyr（R）可以帮助数据科学家和开发人员进行数据预备。

在选择数据预备解决方案和工具时，可以考虑如下因素：可用性、协作、许可模型、监管、复杂性、供应商以及生态系统。

查看英文原文：Data Preparation Pipelines: Strategy, Options and Tools

转自 http://www.infoq.com/cn/news/2017/04/stirman-data-preparation

相关推荐