Iremos conhecer as técnicas:
1\. Utilizar notebook com instância Apache Spark anexado e linguagem de programação Python (ATTACH TO, LANGUAGE, PYSPARK):
- No Azure Synapse Analytics, você pode criar notebooks usando a instância Apache Spark e a linguagem Python. O comando ATTACH TO é usado para conectar o notebook à instância Spark, e a linguagem é definida como Python com LANGUAGE.
-- Comando para anexar ao Spark em Python
%pyspark
2\. Visualizar os recursos associados à instância Apache Spark (CONFIGURE SESSION):
- Para visualizar e configurar os recursos associados à instância Spark, você pode usar comandos como CONFIGURE SESSION. Isso permite definir configurações específicas da sessão Spark.
-- Configurar recursos da sessão Spark
spark.conf.set("spark.some.config.option", "config-value")
3\. Identificar os pacotes instalados da instância Apache Spark (PKG\_RESOURCES, WORKING\_SET, PRINT):
- Você pode identificar os pacotes Python instalados na instância Spark usando bibliotecas como pkg\_resources e working\_set.
-- Identificar pacotes instalados
import pkg_resources
for package in pkg_resources.working_set:
print(package)
4\. Importar pacotes Python (PANDAS, REQUESTS, BEAUTIFULSOUP):
- Importar bibliotecas Python necessárias para manipulação de dados, requisições web e scraping.
import pandas as pd
import requests
from bs4 import BeautifulSoup
5\. Obter conteúdo de página da internet (REQUESTS, HTML CODE, ELEMENTS, TABLES, ROWS, COLUMNS):
- Use bibliotecas como requests e BeautifulSoup para obter o conteúdo de uma página web e extrair informações.
url = 'https://example.com'
response = requests.get(url)
html_code = response.text
6\. Converter elementos do código HTML em lista Array (BEAUTIFULSOUP, HTML5LIB):
- Use o BeautifulSoup para analisar o código HTML e extrair dados.
soup = BeautifulSoup(html_code, 'html5lib')
tables = soup.find_all('table')
**7\. Interagir e identificar elementos
na lista Array (FIND\_ALL, TABLE, FOR, ENUMERATE):**
- Iterar sobre elementos em uma lista e extrair informações específicas.
for i, table in enumerate(tables):
print(f"Table {i + 1}:")
rows = table.find_all('tr')
for row in rows:
columns = row.find_all('td')
for col in columns:
print(col.text)
8\. Criar Dataframe (PANDAS, COLUMNS):
- Use a biblioteca Pandas para criar um DataFrame com os dados extraídos.
data = {'Column1': [value1, value2, ...], 'Column2': [value1, value2, ...]}
df = pd.DataFrame(data, columns=['Column1', 'Column2'])
9\. Adicionar registros ao Dataframe (APPEND):
- Adicione novos registros ao DataFrame conforme necessário.
new_data = {'Column1': [new_value1], 'Column2': [new_value2]}
df = df.append(pd.DataFrame(new_data), ignore_index=True)
10\. Visualizar os dados existentes no Dataframe:
- Visualize os dados do DataFrame.
print(df)
11\. Salvar os registros do Dataframe em arquivo no formato Parquet (PANDAS, TO\_PARQUET, AZURE DATA LAKE STORAGE):
- Salve os registros do DataFrame em um arquivo Parquet.
df.to_parquet('output.parquet')
Upload para o Azure Data Lake Storage
12\. Consultar os registros em script SQL:
- Execute consultas SQL no Azure Synapse Analytics para analisar ou manipular os dados.
-- Consulta SQL
spark.sql("SELECT * FROM my_table").show()