Comment utiliser UNION ALL BY NAME en SQL BigQuery efficacement ?

UNION ALL BY NAME dans BigQuery simplifie les opérations d’union en alignant les colonnes par nom, pas par position. Cela évite erreurs de type et facilite la manipulation de grands ensembles de données, un vrai gain de temps confirmé par la documentation officielle Google Cloud.

3 principaux points à retenir.

UNION ALL BY NAME identifie les colonnes par nom, pas par ordre.
Évite les erreurs de correspondance et facilite la lecture des requêtes.
Fonctionne uniquement lorsque les colonnes ont des noms identiques et types compatibles.

Qu’est-ce que UNION ALL BY NAME et pourquoi c’est un changement majeur ?

Le UNION ALL BY NAME est une fonctionnalité révolutionnaire dans BigQuery, permettant d’effectuer des unions de résultats SQL en se basant sur les noms des colonnes plutôt que sur leur ordre. Cela peut sembler anodin pour certains, mais c’est un changement majeur qui apporte une clarté appréciable lors de la gestion de données complexes.

Traditionnellement, lorsqu’on utilise UNION ALL, il est impératif que les colonnes soient dans le même ordre dans chaque requête. Si vous avez des requêtes qui ressemblent à ceci :

SELECT id, name, age FROM table1
UNION ALL
SELECT name, age, id FROM table2

Cette approche peut conduire à d’énormes erreurs. Si, par inadvertance, les colonnes sont mal ordonnées, vous obtiendrez des résultats erronés. Cela est frustrant, surtout lorsque l’on traite de plusieurs tables qui peuvent avoir des structures légèrement différentes ou des renommages de colonnes. Les erreurs de type se multiplient, et la détection de ces problèmes exige un effort considérable, ce qui peut ralentir l’analyse des données.

Maintenant, avec UNION ALL BY NAME, le même exemple deviendrait :

SELECT id, name, age FROM table1
UNION ALL BY NAME
SELECT name, age, id FROM table2

Ce qui est fantastique ici, c’est que BigQuery va automatiquement aligner les colonnes sur leurs noms. Tant que les noms correspondent, peu importe l’ordre dans lequel vous les avez spécifiés. Cela supprime la source fréquente d’erreurs dans les requêtes SQL.

Les bénéfices sont clairs : la simplicité de construction de requêtes, une robustesse accrue face aux erreurs et une lisibilité améliorée. Fini le besoin de toujours vérifier l’ordre des colonnes ! Cela permet de se concentrer davantage sur l’analyse des données plutôt que sur la correction d’erreurs de syntaxe.

Pour en savoir plus sur les différences entre UNION et UNION ALL et d’autres concepts similaires, consultez cet article informatif ici.

Comment utiliser UNION ALL BY NAME dans vos requêtes BigQuery concrètement ?

Utiliser UNION ALL BY NAME dans BigQuery est un jeu d’enfant, mais cela demande une compréhension claire de ses subtilités. Tout d’abord, qu’est-ce que ça veut dire ? Simplement, cela vous permet de combiner plusieurs ensembles de résultats tout en alignant les colonnes par leur nom, et non par leur position. C’est essentiel dans les situations où les ordres de colonnes diffèrent dans vos requêtes, mais où les noms de colonnes restent cohérents.

Pour exploiter UNION ALL BY NAME, assurez-vous que les colonnes que vous essayez de fusionner ont des types compatibles et des noms identiques. En général, les types de données pris en charge incluent :

STRING
INTEGER
FLOAT
BOOLEAN

En revanche, ne pensez même pas à combiner TEXT et STRING, ou un INTEGER avec un STRING ; cela ne fonctionnera pas, ce qui causerait une erreur de type.

Voici un exemple amalgamant des ensembles de données depuis deux tables différentes. Supposons que nous avons deux tables : employees_2022 et employees_2023. Les colonnes sont name, position, et salary.


SELECT name, position, salary 
FROM employees_2022
UNION ALL BY NAME
SELECT name, position, salary 
FROM employees_2023;

Dans cette requête, peu importe l’ordre des colonnes dans chaque table ; si les noms correspondent, BigQuery les alignera automatiquement. Après exécution, vous obtiendrez une liste consolidée de tous les employés des deux années, avec leurs détails respectifs de position et de salaire.

Voici un tableau sommaire pour vous aider à distinguer UNION ALL classique et UNION ALL BY NAME :

Critère	UNION ALL classique	UNION ALL BY NAME
Alignement des colonnes	Positional	Par nom
Compatibilité des colonnes	Doit correspondre par position	Doit avoir les mêmes noms
Flexibilité	Moins flexible	Plus flexible
Erreurs	Plus d’erreurs potentielles en cas de désalignement	Réduit le risque d’erreurs

En somme, choisir UNION ALL BY NAME est souvent la meilleure option quand il s’agit de processer des données provenant de différentes sources tout en maintenant une cohérence dans votre requête. Pour des exemples plus détaillés, vous pouvez consulter cet article enrichissant sur BigQuery.

Quels pièges éviter et bonnes pratiques pour UNION ALL BY NAME en SQL BigQuery ?

Lorsqu’on manipule UNION ALL BY NAME dans SQL BigQuery, plusieurs erreurs fréquentes peuvent surgir, souvent provenant d’une ignorance des détails subtils de cette fonctionnalité. Voici quelques pièges à éviter.

Incohérence des colonnes : Pour que l’union fonctionne, les colonnes doivent être à la fois nommées et typées de manière compatible. Si l’une des colonnes présente une différence de type (par exemple, essayer de combiner une chaîne de caractères avec un entier), cela ne fonctionnera pas. Ainsi, assurez-vous que les colonnes correspondent parfaitement par nom et par type avant de procéder à l’union.
Gestion des valeurs NULL : Les valeurs NULL peuvent devenir des entités problématiques. Par exemple, si vous réalisez une opération où certaines colonnes sont NULL, cela peut fausser les résultats. Soyez vigilant sur la manière dont vous traitez ces cas, soit en remplaçant les NULL par des valeurs par défaut, soit en les excluant grâce à une condition WHERE.
Impact sur les performances : Utiliser UNION ALL peut être coûteux en termes de performances, surtout si les tables sont volumineuses. Privilégiez des tests dans un environnement limité avant de lancer vos requêtes sur de grandes bases de données. En effet, chaque union nécessite un scan de toutes les données concernées, donc méfiance !
Méthodes anciennes : Dans certains scénarios, les anciennes méthodes d’union, comme UNION tout court, peuvent s’avérer plus efficaces, surtout si vous devez éliminer les doublons. Cela peut sembler contre-intuitif, mais le meilleur choix dépend parfois de vos besoins spécifiques.

Pour garantir des résultats fiables, voici quelques conseils pratiques : nommez vos colonnes de manière cohérente en amont, testez fréquemment vos requêtes sur des sous-ensembles de données plutôt qu’en grand volume, et assurez-vous que votre pipeline de données respecte une structure uniforme. Lorsque vient le temps de déboguer, utilisez des requêtes intermédiaires pour isoler les problèmes, cela peut faire toute la différence.

Voici un tableau synthèse des bonnes pratiques et pièges à éviter :

Pratiques	Pièges à éviter
Assurez-vous que les colonnes sont compatibles par nom et type	Aucun contrôle des noms et des types, ce qui peut entraîner des erreurs
Testez vos requêtes dans un environnement limité	Exécutions sur des bases de données volumineuses sans pré-tests
Utilisez des valeurs par défaut pour réduire l’impact des NULL	Ignorer les valeurs NULL qui peuvent fausser vos résultats
Maintenez une nomenclature et une structure cohérente dans le pipeline de données	Retours à des méthodes anciennes lorsqu’elles ne sont pas justifiées par le besoin

N’hésitez pas à explorer davantage ce sujet via des ressources comme cet article sur BigQuery.

Dans quels cas précis UNION ALL BY NAME apporte un vrai plus pour les métiers de la Data ?

Alors, où est-ce que UNION ALL BY NAME fait réellement la différence pour les métiers de la Data ? Commençons par les domaines où son utilisation peut transformer des processus complexes en opérations fluides.

Analyse multi-sources : Lorsque vous rassemblez des données d’origines diverses (par exemple, des bases de données, des fichiers CSV ou des API), UNION ALL BY NAME est le héros qui vous permet d’unifier rapidement ces informations. Imaginez vouloir croiser les données de comportement utilisateur de Google Analytics avec des données de vente d’un système CRM. Plutôt que de jongler avec des centaines de requêtes, une seule utilisation d’UNION ALL BY NAME vous permet de créer une vue cohérente et immédiatement exploitable.
Modélisation flexible : Si vous construisez des modèles de données dynamiques qui doivent s’adapter à diverses sources, cette fonction simplifie le mélange de structures hétérogènes. Vous pouvez par exemple contribuer à un projet d’analyse prédictive où les datasets évoluent régulièrement avec de nouvelles colonnes. Grâce à UNION ALL BY NAME, ajouter ou ajuster des champs devient un jeu d’enfant.
Traitement de données hétérogènes : Dans des projets où les types de données varient (numériques, textuels, etc.), UNION ALL BY NAME permet d’éviter les erreurs fréquentes de type. Cela se traduit par une réduction drastique des bugs qui peuvent compromettre des résultats critiques.
ETL modernes : Dans un contexte d’ETL, où l’extraction, la transformation et le chargement des données doivent être efficaces, UNION ALL BY NAME facilite la tâche en rendant les flux de données plus transparents et moins sujets à des erreurs humaines involontaires.
Données évolutives : Lorsque vos datasets changent régulièrement, l’automatisation à l’aide d’UNION ALL BY NAME rend les mises à jour plus simples à gérer. Cela permet aux data engineers et analysts d’investir leur temps à tirer des insights plutôt qu’à corriger des erreurs.

En clair, cette fonction n’est pas qu’un simple outil ; c’est une clé qui ouvre des portes vers des workflows plus fiables et rapides. Elle permet de diminuer la charge de travail, de réduire les erreurs humaines, et, en fin de compte, d’augmenter la fiabilité et la rapidité des analyses.

Pour illustrer l’impact, voici un tableau récapitulatif des cas d’usage courants et des avantages attendus :

Cas d’usage	Avantages
Analyse multi-sources	Vision intégrée et rapide des données
Modélisation flexible	Adaptabilité aux modifications de structure
Traitement de données hétérogènes	Réduction des erreurs de type
ETL modernes	Flux de données plus transparents
Données évolutives	Simplification des mises à jour

Vous souhaitez approfondir ? Pour des exemples concrets, consultez également cet article sur DataCamp.

Alors, devriez-vous adopter UNION ALL BY NAME dès maintenant en SQL BigQuery ?

UNION ALL BY NAME change la donne dans BigQuery en facilitant la combinaison de datasets avec des colonnes ordonnées différemment sans prise de tête. Vos requêtes gagnent en clarté, robustesse, et maintenabilité. Cela réduit les bugs et accroît l’efficacité des pipelines SQL, particulièrement dans des environnements complexes ou évolutifs. Restez vigilant sur la cohérence des types et noms, mais à l’évidence, c’est une avancée incontournable pour tout professionnel de la data utilisant BigQuery.

FAQ

Qu’est-ce que fait exactement UNION ALL BY NAME en BigQuery ?

UNION ALL BY NAME combine les résultats de plusieurs requêtes SQL en alignant les colonnes selon leur nom au lieu de leur position, évitant ainsi les erreurs si l’ordre des colonnes diffère entre les requêtes.

L’utilisation de UNION ALL BY NAME peut-elle causer des problèmes de performance ?

En général, l’impact est minime. Cependant, l’alignement automatique peut augmenter légèrement le temps d’exécution comparé à UNION ALL traditionnel, surtout sur de très gros volumes, mais le gain en fiabilité justifie largement ce compromis.

Que faire si les colonnes ont des noms similaires mais des types different ?

Les colonnes doivent avoir des types compatibles pour éviter les erreurs. Si ce n’est pas le cas, vous devez effectuer un CAST explicite pour harmoniser les types avant l’union.

Quels sont les avantages concrets pour les data engineers ?

UNION ALL BY NAME réduit le temps consacré à la correction des erreurs liées à l’ordre des colonnes, simplifie le développement de pipelines et améliore la lisibilité du code, ce qui est crucial pour le maintien à long terme et la collaboration.

Est-ce que cette fonctionnalité est disponible sur d’autres plateformes SQL comme Snowflake ?

Actuellement, UNION ALL BY NAME est une nouveauté majeure de BigQuery. Snowflake et d’autres plateformes proposent des alternatives, mais aucune ne propose exactement ce comportement, ce qui confère un avantage compétitif à BigQuery selon les experts comme Tamas Ujhelyi.

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.