基于Kubernetes构建现代大数据管道-Linuxeden开源社区

作者 Srini Penchikala ，译者薛命灯

容器技术（如Kubernetes）为现代数据管道的实现带来了可能性。来自lguazio的大数据架构师Eliran Bivas在最近举行的北美KubeCon+CloudNativeCon 2017大会上做了演讲，谈论了大数据管道以及Kubernetes将如何帮助构建现代大数据管道。

在过去，大数据主要依赖Hadoop，而近年来，大数据生态系统出现了新的数据库、流式数据和机器学习解决方案，Hadoop的部署模型（Map Reduce、YARN和HDFS）已经无法完全满足它们的要求。它们还需要集群调度层来托管各种工作负载，如Kafka、Spark和TensorFlow，并使用存储在各种数据库中的数据，如Cassandra、Elasticsearch和云存储。

Bivas谈论了软件开发生命周期中的各种团队和他们的主要目标。应用工程师想要敏捷式的软件开发，数据工程师更关心数据被保存在哪里，想要让数据库运行在最佳状态，而DevOps团队希望所有系统都能正常工作，减少维护和中断时间。得益于容器技术的发展，所有这些目标都有望达成。

他介绍了一种通用框架，用于创建端到端的云原生分析应用程序。开发人员负责对数据服务与应用程序进行解耦，框架则让大数据解决方案更灵活和高效。该框架也可用在数据服务上，用于管理各种结构化、非结构化和流式数据。

整个解决方案应该要基于云原生应用和框架，并使用Kubernetes提供的统一编排层。

Bivas描绘了一种持续分析流模型，包括处于中间层的数据服务，它们使用容器化的Spark、TensorFlow等大数据分析工具来分析来自数据存储（关系型数据库）和外部（物联网）的数据。

无服务器框架Kubeless和OpenFaaS可用在这些解决方案中。无服务器解决方案可以在不使用YAML、Dockerfile等文件的情况下进行方便的部署。它们还支持自动伸缩和触发事件。

Bivas还介绍了Nuclio的架构细节，Nuclio是最近开源的一个实时无服务器平台。它使用Kubernetes作为YARN之外的替代方案，还使用了Spark ML、Presto、TensorFlow和Python，以及无服务器Function。Nuclio还支持可插拔的事件源和数据源。

他还谈论了实时分析技术在汽车维护方面的应用，通过Web API流式化汽车相关数据，并使用微服务进行数据摄取。他们使用天气数据和道路数据来增强汽车数据，根据天气条件组装合适的汽车配件。

Bivas在演讲中进行了一个演示，展示了基于云原生架构进行大数据分析的优势。在演讲结时，Bivas总结了一些最佳实践，如使用Kubernetes提供的工具、记录应用日志、收集度量指标、通过度量指标了解应用程序的性能。

如果读者对Nuclio框架感兴趣，可以查看它的GitHub项目、代码示例和文档。

查看英文原文：Modern Big Data Pipelines over Kubernetes

转自 http://www.infoq.com/cn/news/2018/01/big-data-pipelines-kubernetes

相关推荐