Introduzione alla trasformazione dei dati

Questo documento descrive i diversi modi in cui puoi trasformare i dati nelle tabelle BigQuery.

Metodi per la trasformazione dei dati

Puoi trasformare i dati in BigQuery nei seguenti modi:

  • Utilizza il Data Manipulation Language (DML) per trasformare i dati nelle tabelle BigQuery.
  • Utilizza Dataform per sviluppare, testare, controllare le versioni e pianificare flussi di lavoro SQL in BigQuery.

Puoi anche esaminare la cronologia delle modifiche di una tabella BigQuery per esaminare le trasformazioni apportate a una tabella in un intervallo di tempo specificato.

Trasforma i dati con DML

Puoi utilizzare il Data Manipulation Language (DML) per trasformare i dati nelle tabelle BigQuery. Le istruzioni DML sono query GoogleSQL che manipolano i dati di una tabella esistenti per aggiungere o eliminare righe, modificare i dati nelle righe esistenti o unire i dati con i valori di un'altra tabella. Le trasformazioni DML sono supportate anche nelle tabelle partizionate.

Puoi eseguire più istruzioni DML contemporaneamente, dove BigQuery mette in coda diverse istruzioni DML che trasformano i dati una dopo l'altra. BigQuery gestisce la modalità di esecuzione delle istruzioni DML simultanee, in base al tipo di trasformazione.

Trasforma i dati con Dataform

Dataform consente di gestire la trasformazione dei dati nel processo di estrazione, caricamento e trasformazione (ELT) per l'integrazione dei dati. Dopo aver estratti i dati non elaborati dai sistemi di origine e averli caricati in BigQuery, puoi utilizzare Dataform per trasformarli in una suite di tabelle organizzata, testata e documentata. Mentre in DML adotti un approccio imperativo spiegando a BigQuery come trasformare esattamente i tuoi dati, in Dataform scrivi istruzioni dichiarative in cui Dataform determina la trasformazione necessaria per raggiungere questo stato.

In Dataform puoi sviluppare, testare e controllare la versione dei flussi di lavoro SQL per la trasformazione dei dati dalle dichiarazioni delle origini dati a tabelle di output, viste o viste materializzate. Puoi sviluppare flussi di lavoro SQL con Dataform core o JavaScript puro. Dataform core è un meta-linguaggio open source che estende SQL con SQLX e JavaScript. Puoi utilizzare Dataform Core per gestire le dipendenze, configurare test automatici sulla qualità dei dati e documentare le descrizioni di tabelle o colonne all'interno del codice.

Dataform archivia il codice del flusso di lavoro SQL nei repository e utilizza Git per tenere traccia delle modifiche ai file. Le aree di lavoro di sviluppo in Dataform consentono di lavorare sui contenuti del repository senza influire sul lavoro di altri che lavorano sullo stesso repository. Puoi connettere i repository Dataform a provider Git di terze parti, tra cui Azure DevOps Services, BitBucket, GitHub e GitLab.

Puoi eseguire o pianificare flussi di lavoro SQL con le configurazioni di release e le configurazioni dei flussi di lavoro Dataform. In alternativa, puoi pianificare le esecuzioni con Cloud Composer o con Workflows e Cloud Scheduler. Durante l'esecuzione, Dataform esegue query SQL in BigQuery in ordine di dipendenze degli oggetti nel flusso di lavoro SQL. Dopo l'esecuzione, puoi utilizzare le tabelle e le viste definite per l'analisi in BigQuery.

Per scoprire di più sulla creazione di flussi di lavoro SQL per la trasformazione dei dati in Dataform, consulta Panoramica di Dataform e Panoramica delle funzionalità di Dataform.

Passaggi successivi