Free cookie consent management tool by TermsFeed Policy Generator

#074 Cómo hacer web scraping en Azure Synapse Analytics

Apresentamos nesse video como utilizar a técnica de Web Scraping para extrair dados de páginas da internet utilizando o Python no Azure Synapse Analytics.

Conoceremos las técnicas:

1. Uso del cuaderno con

la instancia de Apache Spark adjunta y el lenguaje de programación Python (ATTACH TO, LANGUAGE, PYSPARK): en
  • Azure Synapse Analytics, puede crear cuadernos mediante la instancia de Apache Spark y el lenguaje Python. El comando ATTACH TO se usa para conectar el cuaderno a la instancia de Spark y el lenguaje se establece en Python con LANGUAGE.

    -- Comando para adjuntar a Spark en Python
    %pyspark
    

número arábigo. Ver

los recursos asociados a la instancia de Apache Spark (CONFIGURE SESSION):
  • para ver y configurar los recursos asociados a la instancia de Spark, puede usar comandos como CONFIGURE SESSION. Esto le permite configurar opciones específicas de la sesión de Spark.

    -- Configurar los recursos de sesión de Spark
    spark.conf.set("spark.some.config.option", "config-value")
    

3. Identifique los paquetes instalados de la instancia de Apache Spark (PKG_RESOURCES, WORKING_SET, PRINT):

  • puede identificar los paquetes de Python instalados en la instancia de Spark mediante bibliotecas como pkg_resources y working_set.

    -- Identificar los paquetes instalados
    Importar pkg_resources
    para el paquete en pkg_resources.working_set:
      imprimir (paquete)
    

4. Importar paquetes de Python (PANDAS, REQUESTS, BEAUTIFULSOUP):

  • importe las bibliotecas de Python necesarias para la manipulación de datos, las solicitudes web y el raspado.

    Importar Pandas como PD
    Solicitudes de importación
    de bs4 import BeautifulSoup
    

5. Obtener contenido de la página web (SOLICITUDES, CÓDIGO HTML, ELEMENTOS, TABLAS, FILAS, COLUMNAS):

  • Utilice bibliotecas como solicitudes y BeautifulSoup para recuperar el contenido de una página web y extraer información.

    url='https://example.com'
    respuesta = solicitudes.get(url)
    html_code = respuesta.texto
    

6. Convertir elementos de código HTML en una lista de matrices (BEAUTIFULSOUP, HTML5LIB):

  • use BeautifulSoup para analizar el código HTML y extraer datos.

    sopa = BeautifulSoup(html_code, 'html5lib')
    tablas = soup.find_all('tabla')
    

7. Interactuar e identificar elementos de la lista de matrices (FIND_ALL, TABLE, FOR, ENUMERATE

  • ): itere sobre los elementos de una lista y extraiga información específica.

    Para I, tabla en enumerate(tables):
      print(f"Tabla {i + 1}:")
      filas = table.find_all('tr')
      Para fila en filas:
          columnas = row.find_all('td')
          Para col en columnas:
              print(col.texto)
    

8. Crear DataFrame (PANDAS, COLUMNS):

  • Utilice la biblioteca Pandas para crear un DataFrame con los datos extraídos.

    data = {'Columna1': [valor1, valor2, ...], '
    Columna2': [valor1, valor2, ...] }
    df = pd. DataFrame(data, columns=['Column1', 'Column2'])
    

9. Agregar registros a la trama de datos (APPEND):

  • agregue nuevos registros a la trama de datos según sea necesario.

    new_data = {'Columna1': [new_value1], 'Columna2': [new_value2]}
    df = df.append(pd. DataFrame(new_data), ignore_index=True)
    

10. Visualice los datos existentes en Dataframe:- Visualice los datos

de DataFrame.
 Imprimir (DF)

11. Guarde los registros de la trama de datos en un archivo en formato Parquet (PANDAS, TO_PARQUET, AZURE DATA LAKE STORAGE):- Guarde los registros de la trama de datos en un archivo Parquet

.
 df.to_parquet('salida.parquet')
   # Cargar en Azure Data Lake Storage

12. Consulte los registros en el script SQL:

ejecute consultas SQL en Azure Synapse Analytics para analizar o manipular los datos.
 -- Consulta SQL
   spark.sql("SELECT * FROM my_table").show()

Este contenido contiene
  • Conteúdo video
  • Idioma Português
  • Duración 10m 39s
  • Subtítulos Sim

  • Tiempo de leer 2 min 42 seg

avatar
Fabio Santos

Científico de datos y consultor de soluciones digitales y analíticas


  • Compartir

Youtube Channel

@fabioms

Suscríbase ahora