Probar BigQuery DataFrames

Usa esta guía de inicio rápido para realizar las siguientes tareas de análisis y aprendizaje automático (AA) mediante la API de BigQuery DataFrames en un notebook de BigQuery:

  • Crea un DataFrame en el conjunto de datos públicos bigquery-public-data.ml_datasets.penguins.
  • Calcula la masa corporal promedio de un pingüino.
  • Crea un modelo de regresión lineal.
  • Crea un DataFrame en un subconjunto de los datos de pingüinos para usarlo como datos de entrenamiento.
  • Limpia los datos de entrenamiento.
  • Establece los parámetros del modelo.
  • Ajusta el modelo.
  • Asigna una puntuación al modelo.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  4. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  5. Asegúrate de que la API de BigQuery esté habilitada.

    Habilitación de la API

    Si creaste un proyecto nuevo, la API de BigQuery se habilita automáticamente.

Permisos necesarios

Para crear y ejecutar notebooks, necesitas los siguientes roles de Identity and Access Management (IAM):

Crea un notebook

Sigue las instrucciones en Crea un notebook desde el editor de BigQuery para crear un notebook nuevo.

Probar BigQuery DataFrames

Prueba BigQuery DataFrames mediante estos pasos:

  1. Crea una nueva celda de código en el notebook.
  2. Copia el siguiente código y pégalo en la celda de código:

    import bigframes.pandas as bpd
    
    # Set BigQuery DataFrames options
    bpd.options.bigquery.project = your_gcp_project_id
    bpd.options.bigquery.location = "us"
    
    # Create a DataFrame from a BigQuery table
    query_or_table = "bigquery-public-data.ml_datasets.penguins"
    df = bpd.read_gbq(query_or_table)
    
    # Use the DataFrame just as you would a pandas DataFrame, but calculations
    # happen in the BigQuery query engine instead of the local system.
    average_body_mass = df["body_mass_g"].mean()
    print(f"average_body_mass: {average_body_mass}")
    
    # Create the Linear Regression model
    from bigframes.ml.linear_model import LinearRegression
    
    # Filter down to the data we want to analyze
    adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"]
    
    # Drop the columns we don't care about
    adelie_data = adelie_data.drop(columns=["species"])
    
    # Drop rows with nulls to get our training data
    training_data = adelie_data.dropna()
    
    # Pick feature columns and label column
    X = training_data[
        [
            "island",
            "culmen_length_mm",
            "culmen_depth_mm",
            "flipper_length_mm",
            "sex",
        ]
    ]
    y = training_data[["body_mass_g"]]
    
    model = LinearRegression(fit_intercept=False)
    model.fit(X, y)
    model.score(X, y)
    
  3. Modifica la línea bpd.options.bigquery.project = your_gcp_project_id para especificar tu proyecto, por ejemplo, bpd.options.bigquery.project = "myproject".

  4. Ejecuta la celda de código.

    La celda de código muestra la masa corporal promedio para los pingüinos en el conjunto de datos y, luego, muestra las métricas de evaluación del modelo.

Limpia

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

¿Qué sigue?

Prueba el notebook de introducción a BigQuery DataFrames.