Conoceremos las técnicas:
1. Uso del cuaderno con
la instancia de Apache Spark adjunta y el lenguaje de programación Python (ATTACH TO, LANGUAGE, PYSPARK): en
Azure Synapse Analytics, puede crear cuadernos mediante la instancia de Apache Spark y el lenguaje Python. El comando ATTACH TO se usa para conectar el cuaderno a la instancia de Spark y el lenguaje se establece en Python con LANGUAGE.
-- Comando para adjuntar a Spark en Python
%pyspark
número arábigo. Ver
los recursos asociados a la instancia de Apache Spark (CONFIGURE SESSION):
para ver y configurar los recursos asociados a la instancia de Spark, puede usar comandos como CONFIGURE SESSION. Esto le permite configurar opciones específicas de la sesión de Spark.
-- Configurar los recursos de sesión de Spark
spark.conf.set("spark.some.config.option", "config-value")
3. Identifique los paquetes instalados de la instancia de Apache Spark (PKG_RESOURCES, WORKING_SET, PRINT):
puede identificar los paquetes de Python instalados en la instancia de Spark mediante bibliotecas como pkg_resources y working_set.
-- Identificar los paquetes instalados
Importar pkg_resources
para el paquete en pkg_resources.working_set:
imprimir (paquete)
4. Importar paquetes de Python (PANDAS, REQUESTS, BEAUTIFULSOUP):
importe las bibliotecas de Python necesarias para la manipulación de datos, las solicitudes web y el raspado.
Importar Pandas como PD
Solicitudes de importación
de bs4 import BeautifulSoup
5. Obtener contenido de la página web (SOLICITUDES, CÓDIGO HTML, ELEMENTOS, TABLAS, FILAS, COLUMNAS):
Utilice bibliotecas como solicitudes y BeautifulSoup para recuperar el contenido de una página web y extraer información.
url='https://example.com'
respuesta = solicitudes.get(url)
html_code = respuesta.texto
6. Convertir elementos de código HTML en una lista de matrices (BEAUTIFULSOUP, HTML5LIB):
use BeautifulSoup para analizar el código HTML y extraer datos.
sopa = BeautifulSoup(html_code, 'html5lib')
tablas = soup.find_all('tabla')
7. Interactuar e identificar elementos de la lista de matrices (FIND_ALL, TABLE, FOR, ENUMERATE
): itere sobre los elementos de una lista y extraiga información específica.
Para I, tabla en enumerate(tables):
print(f"Tabla {i + 1}:")
filas = table.find_all('tr')
Para fila en filas:
columnas = row.find_all('td')
Para col en columnas:
print(col.texto)
8. Crear DataFrame (PANDAS, COLUMNS):
Utilice la biblioteca Pandas para crear un DataFrame con los datos extraídos.
data = {'Columna1': [valor1, valor2, ...], 'Columna2': [valor1, valor2, ...] }
df = pd. DataFrame(data, columns=['Column1', 'Column2'])
9. Agregar registros a la trama de datos (APPEND):
agregue nuevos registros a la trama de datos según sea necesario.
new_data = {'Columna1': [new_value1], 'Columna2': [new_value2]}
df = df.append(pd. DataFrame(new_data), ignore_index=True)
10. Visualice los datos existentes en Dataframe:- Visualice los datos
de DataFrame.
Imprimir (DF)
11. Guarde los registros de la trama de datos en un archivo en formato Parquet (PANDAS, TO_PARQUET, AZURE DATA LAKE STORAGE):- Guarde los registros de la trama de datos en un archivo Parquet
.
df.to_parquet('salida.parquet')
# Cargar en Azure Data Lake Storage
12. Consulte los registros en el script SQL:
ejecute consultas SQL en Azure Synapse Analytics para analizar o manipular los datos.
-- Consulta SQL
spark.sql("SELECT * FROM my_table").show()