google big query

Google BigQuery avance dans le multicloud

Google Cloud continue son chemin dans l’écosystème cloud. Avec son service BigQuery , Google permettrai de faciliter l’accès aux données des différents provider de cloud.

Les données sont interrogées à l'aide du moteur Dremel de Google Cloud. (Crédit Google Cloud)
Les données sont interrogées à l’aide du moteur Dremel de Google Cloud. (Crédit Google Cloud)

Avec le service BigQuery Omni, Google Cloud souhaite palier à un soucis majeur dans l’analyse des données : le déplacement des données de différentes sources et notamment celles provenant d’autres cloud comme AWS. La première version alpha BigQuery Omni permet aux clients privés de Google Cloud de fusionner des données AWS dans l’entrepôt de données BigQuery pour exécuter des requêtes SQL, créer des tableaux de bord ou passer des API, sans avoir à déplacer physiquement les données. Après AWS, Microsoft Azure serait le prochain sur la liste, en attendant peut être les autres fournisseurs.

Le problème principal vient du fait d’utiliser plusieurs fournisseurs de cloud. Ainsi, l’analyse des données requiert d’avoir cet ensemble de données au même endroit, et donc d’interroger par exemple S3 et Cloud Storage. Le multicloud est un problème pour le déplacement de données. Pour résoudre ce problème, BigQuery Omni permet aux clients d’analyser les données où qu’elles se trouvent : Google Cloud, AWS en tant qu’alpha privé et très bientôt sur Microsoft Azure. Tout ceci engendre d’importants coûts en calcul. Ce service offre aux utilisateurs « une expérience de données cohérente en utilisant le même SQL et la même interface utilisateur que ceux utilisés dans BigQuery pour les requêtes, les tableaux de bord et pour exécuter des analyses de cohérence et de familiarité ».

Fonctionnement de BigQuery Omni

En découplant le stockage et le calcul, BigQuery Omni prétend être en mesure de fournir « un calcul résilient sans état qui exécute des requêtes SQL standard », écrit M. Saha. « Alors que les concurrents vous demanderont de déplacer ou de copier vos données d’un cloud public vers un autre, où vous pourriez avoir à supporter des frais de sortie, ce n’est pas le cas avec BigQuery Omni », ajoute-t-il. Le service repose sur la plate-forme Anthos de Google Cloud , qui fournit un moyen unique et cohérent de gérer les charges de travail de Kubernetes dans les environnements de cloud privés et publics.

Cette architecture conteneurisée permet aux données de rester dans son compartiment AWS S3, où elles sont interrogées à l’aide du moteur Dremel de Google Cloud, s’exécutant nativement sur un cluster Anthos dans la même région où les données résident. Les résultats sont ensuite renvoyés à BigQuery, ou à votre stockage de données de votre choix, où ils sont combinés avec d’autres données pertinentes, sans frais de transfert de données associés.

Cette structure permet également à Google Cloud de positionner BigQuery Omni comme une solution serverless, permettant aux utilisateurs d’exploiter des données sans avoir à gérer l’infrastructure sous-jacente.  « L’idée est de faire du calcul un pool de ressources partagées et comme nous avons plusieurs clients exécutant des requêtes, nous pouvons partager et augmenter ces ressources. Exécutez la requête sur AWS et nous transférerons les résultats vers Google et les joindrons avec les résultats. » 

Premiers pas avec BigQuery Omni

Comme M. Saha le décrit dans son article de blog, une fois inscrit à l’alpha privé , les clients peuvent se lancer directement dans l’expérience utilisateur BigQuery sur la console Google Cloud. Vous sélectionnez simplement la région où se trouvent les données et exécutez la requête, sans avoir besoin de formater ou de transformer les données, qu’il s’agisse d’Avro, CSV, JSON, ORC ou Parquet.

Les résultats s’affichent dans BigQuery ou peuvent être exportés vers les plateformes de stockage de données de votre choix, sans avoir à les déplacer manuellement dans les clouds. Vous devrez cependant activer BigQuery pour accéder à ces données via les rôles IAM des autres clouds publics. Après le lancement, le coût d’Omni sera conforme à la tarification de BigQuery , donc en fonction de l’utilisation ou sous forme de taux forfaitaire. Il n’y a pas de frais de stockage supplémentaires en dehors de ce que vous payez déjà à AWS pour le stockage S3, ou même pour Azure à l’avenir.

Sharing is caring!

Leave a Reply

Votre adresse de messagerie ne sera pas publiée.