GOOGLE S'ASSOCIE À CLOUDERA POUR APPORTER DES DONNÉES CLOUD À APACHE SPARK - TECHCRUNCH - FONCTIONNALITÉS - 2019

Anonim

Google a annoncé aujourd'hui qu'il s'était associé aux spécialistes Hadoop de Cloudera pour intégrer son modèle de programmation Cloud Dataflow au moteur de traitement de données Spark d'Apache.

Avec Google Cloud Dataflow, les développeurs peuvent créer et surveiller des pipelines de traitement de données sans avoir à s'inquiéter du cluster de traitement de données sous-jacent. Comme Google aime le souligner, le service a évolué à partir des outils internes de l'entreprise pour le traitement de grands ensembles de données à l'échelle Internet. Toutefois, toutes les tâches de traitement de données ne sont pas identiques et vous pouvez parfois exécuter une tâche dans le cloud ou sur site ou sur différents moteurs de traitement. Avec Cloud Dataflow - dans son état idéal - les analystes de données pourront utiliser le même système pour créer leurs pipelines, quelle que soit l'architecture sous-jacente sur laquelle ils veulent les exécuter.

Google a annoncé pour la première fois Dataflow en tant que service hébergé sur sa propre plate-forme l'été dernier, s'appuyant sur les services Google Compute Engine, Cloud Storage et BigQuery. Il y a exactement un mois, la société a ouvert un SDK Java pour le service afin d'aider les développeurs à l'intégrer dans d'autres langages et environnements. Maintenant, avec l'aide de Cloudera, il le fait exactement sous la forme d'un "runner" open source Dataflow pour Spark. Avec cela, les développeurs peuvent désormais exécuter Cloud Dataflow sur leurs propres machines locales, sur le service hébergé de Google (qui est toujours en test alpha privé) et sur Spark.

Comme Google l'a annoncé aujourd'hui, il est «confiant que les programmes Dataflow rendront les données plus utiles dans un nombre croissant d'environnements, dans le cloud ou sur site».

La version Spark est maintenant disponible sur GitHub. Cloudera considère qu'il s'agit d'un «projet d'incubation» destiné uniquement aux tests et à l'expérimentation. Ainsi, si vous voulez l'exécuter en production, vous le faites à vos risques et périls. Google considère également Dataflow comme un projet alpha, aussi le SDK pourrait-il encore changer un peu.