Iremos conhecer as técnicas:
1. Utilizar notebook com instância Apache Spark anexado e linguagem de programação Python (ATTACH TO, LANGUAGE, PYSPARK):
No Azure Synapse Analytics, você pode criar notebooks usando a instância Apache Spark e a linguagem Python. O comando ATTACH TO é usado para conectar o notebook à instância Spark, e a linguagem é definida como Python com LANGUAGE.
-- Comando para anexar ao Spark em Python
%pyspark
2. Visualizar os recursos associados à instância Apache Spark (CONFIGURE SESSION):
Para visualizar e configurar os recursos associados à instância Spark, você pode usar comandos como CONFIGURE SESSION. Isso permite definir configurações específicas da sessão Spark.
-- Configurar recursos da sessão Spark
spark.conf.set("spark.some.config.option", "config-value")
3. Identificar os pacotes instalados da instância Apache Spark (PKG_RESOURCES, WORKING_SET, PRINT):
Você pode identificar os pacotes Python instalados na instância Spark usando bibliotecas como pkg_resources e working_set.
-- Identificar pacotes instalados
import pkg_resources
for package in pkg_resources.working_set:
print(package)
4. Importar pacotes Python (PANDAS, REQUESTS, BEAUTIFULSOUP):
Importar bibliotecas Python necessárias para manipulação de dados, requisições web e scraping.
import pandas as pd
import requests
from bs4 import BeautifulSoup
5. Obter conteúdo de página da internet (REQUESTS, HTML CODE, ELEMENTS, TABLES, ROWS, COLUMNS):
6. Converter elementos do código HTML em lista Array (BEAUTIFULSOUP, HTML5LIB):
Use o BeautifulSoup para analisar o código HTML e extrair dados.
soup = BeautifulSoup(html_code, 'html5lib')
tables = soup.find_all('table')
7. Interagir e identificar elementos na lista Array (FIND_ALL, TABLE, FOR, ENUMERATE):
Iterar sobre elementos em uma lista e extrair informações específicas.
for i, table in enumerate(tables):
print(f"Table {i + 1}:")
rows = table.find_all('tr')
for row in rows:
columns = row.find_all('td')
for col in columns:
print(col.text)
8. Criar Dataframe (PANDAS, COLUMNS):
Use a biblioteca Pandas para criar um DataFrame com os dados extraídos.
data = {'Column1': [value1, value2, ...], 'Column2': [value1, value2, ...]}
df = pd.DataFrame(data, columns=['Column1', 'Column2'])
9. Adicionar registros ao Dataframe (APPEND):
Adicione novos registros ao DataFrame conforme necessário.
new_data = {'Column1': [new_value1], 'Column2': [new_value2]}
df = df.append(pd.DataFrame(new_data), ignore_index=True)
10. Visualizar os dados existentes no Dataframe:
- Visualize os dados do DataFrame.
print(df)
11. Salvar os registros do Dataframe em arquivo no formato Parquet (PANDAS, TO_PARQUET, AZURE DATA LAKE STORAGE):
- Salve os registros do DataFrame em um arquivo Parquet.
df.to_parquet('output.parquet')
# Upload para o Azure Data Lake Storage
12. Consultar os registros em script SQL:
- Execute consultas SQL no Azure Synapse Analytics para analisar ou manipular os dados.
-- Consulta SQL
spark.sql("SELECT * FROM my_table").show()