Azure Synapse Analytics video
13 visitas a la página
1032 visualizaciones de vídeo
2024, noviembre 04, lunes

#074 Cómo hacer web scraping en Azure Synapse Analytics

Apresentamos nesse video como utilizar a técnica de Web Scraping para extrair dados de páginas da internet utilizando o Python no Azure Synapse Analytics.

Conoceremos las técnicas:

1. Uso del cuaderno con

la instancia de Apache Spark adjunta y el lenguaje de programación Python (ATTACH TO, LANGUAGE, PYSPARK): en

Azure Synapse Analytics, puede crear cuadernos mediante la instancia de Apache Spark y el lenguaje Python. El comando ATTACH TO se usa para conectar el cuaderno a la instancia de Spark y el lenguaje se establece en Python con LANGUAGE.
```
-- Comando para adjuntar a Spark en Python
%pyspark
```

número arábigo. Ver

los recursos asociados a la instancia de Apache Spark (CONFIGURE SESSION):

para ver y configurar los recursos asociados a la instancia de Spark, puede usar comandos como CONFIGURE SESSION. Esto le permite configurar opciones específicas de la sesión de Spark.
```
-- Configurar los recursos de sesión de Spark
spark.conf.set("spark.some.config.option", "config-value")
```

3. Identifique los paquetes instalados de la instancia de Apache Spark (PKG_RESOURCES, WORKING_SET, PRINT):

puede identificar los paquetes de Python instalados en la instancia de Spark mediante bibliotecas como pkg_resources y working_set.
```
-- Identificar los paquetes instalados
Importar pkg_resources
para el paquete en pkg_resources.working_set:
  imprimir (paquete)
```

4. Importar paquetes de Python (PANDAS, REQUESTS, BEAUTIFULSOUP):

importe las bibliotecas de Python necesarias para la manipulación de datos, las solicitudes web y el raspado.
```
Importar Pandas como PD
Solicitudes de importación
de bs4 import BeautifulSoup
```

5. Obtener contenido de la página web (SOLICITUDES, CÓDIGO HTML, ELEMENTOS, TABLAS, FILAS, COLUMNAS):

Utilice bibliotecas como solicitudes y BeautifulSoup para recuperar el contenido de una página web y extraer información.
```
url='https://example.com'
respuesta = solicitudes.get(url)
html_code = respuesta.texto
```

6. Convertir elementos de código HTML en una lista de matrices (BEAUTIFULSOUP, HTML5LIB):

use BeautifulSoup para analizar el código HTML y extraer datos.

sopa = BeautifulSoup(html_code, 'html5lib')
tablas = soup.find_all('tabla')

7. Interactuar e identificar elementos de la lista de matrices (FIND_ALL, TABLE, FOR, ENUMERATE

): itere sobre los elementos de una lista y extraiga información específica.

Para I, tabla en enumerate(tables):
  print(f"Tabla {i + 1}:")
  filas = table.find_all('tr')
  Para fila en filas:
      columnas = row.find_all('td')
      Para col en columnas:
          print(col.texto)

8. Crear DataFrame (PANDAS, COLUMNS):

Utilice la biblioteca Pandas para crear un DataFrame con los datos extraídos.
data = {'Columna1': [valor1, valor2, ...], '
```
Columna2': [valor1, valor2, ...] }
df = pd. DataFrame(data, columns=['Column1', 'Column2'])
```

9. Agregar registros a la trama de datos (APPEND):

agregue nuevos registros a la trama de datos según sea necesario.

new_data = {'Columna1': [new_value1], 'Columna2': [new_value2]}
df = df.append(pd. DataFrame(new_data), ignore_index=True)

10. Visualice los datos existentes en Dataframe:- Visualice los datos

de DataFrame.

 Imprimir (DF)

11. Guarde los registros de la trama de datos en un archivo en formato Parquet (PANDAS, TO_PARQUET, AZURE DATA LAKE STORAGE):- Guarde los registros de la trama de datos en un archivo Parquet

 df.to_parquet('salida.parquet')
   # Cargar en Azure Data Lake Storage

12. Consulte los registros en el script SQL:

ejecute consultas SQL en Azure Synapse Analytics para analizar o manipular los datos.

 -- Consulta SQL
   spark.sql("SELECT * FROM my_table").show()

Este contenido contiene

Conteúdo video
Idioma Português
Duración 10m 39s
Subtítulos Sim
Tiempo de leer 2 min 42 seg

Fabio Santos

Científico de datos y consultor de soluciones digitales y analíticas

Youtube Channel

@fabioms

También te puede gustar

Como sincronizar esquema e dados entre bancos de dados no Azure SQL

2023, março 05, domingo
Vídeo

Como obter e publicar dados do MySQL no Power BI

2023, abril 16, domingo
Vídeo