Iremos conhecer as técnicas:
1\. Instalar pacote Python para acessar Azure Data Lake (AZURE FILE DATALAKE STORAGE CLIENT):
- Utilize o pacote azure-storage-file-datalake para acessar o Azure Data Lake Storage a partir de um ambiente Python.
Exemplo de instalação:
pip install azure-storage-file-datalake
2\. Instalar pacote Python para ler arquivo Excel (OPENPYXL, READ, WRITE, EXCEL FILE, XLSX, XLSM):
- O pacote openpyxl é comumente usado para manipular arquivos Excel em Python.
Exemplo de instalação:
pip install openpyxl
3\. Obter o caminho do arquivo no Azure Data Lake (STORAGE ACCOUNT, CONTAINERS, FILESYSTEM, OVERVIEW, URL):
- Para obter o caminho do arquivo no Azure Data Lake, consulte as informações do Storage Account, Containers e FileSystem no Portal Azure.
4\. Criar assinatura de acesso compartilhado (SAS):
- Crie uma Assinatura de Acesso Compartilhado (SAS) para conceder acesso temporário aos recursos do Azure, como arquivos no Data Lake.
5\. Ler arquivo Excel e combinar registros (READ EXCEL, APPEND):
- Use o pacote openpyxl para ler arquivos Excel e combinar registros conforme necessário.
6\. Conhecer os dados (PANDAS, INFO, ENTRIES, COLUMNS):
- O Pandas é uma biblioteca poderosa para manipulação e análise de dados em Python. Use pandas.DataFrame.info() para obter informações sobre os dados, como colunas e tipos.
7\. Identificar e remover registros duplicados (DUPLICATED, SUBSET, KEEP):
- Utilize as funções do Pandas, como duplicated(), subset e keep, para identificar e remover registros duplicados.
8\. Salvar registros em tabela do Azure Databricks (DATA CATALOG, SPARK, WRITE, TABLE):
- Use o contexto Spark no Azure Databricks para escrever dados em uma tabela.
Exemplo:
df.write.format("delta").mode("overwrite").saveAsTable("nome_da_tabela")
9\. Consultar tabela e visualizar em gráfico integrado (SPARK SQL, DISPLAY):
- Utilize Spark SQL para consultar a tabela e a função display() para vi
sualizar os resultados em um gráfico integrado no ambiente Databricks.
Exemplo:
result = spark.sql("SELECT * FROM nome_da_tabela")
display(result)
Esses passos ilustram como acessar o Azure Data Lake, manipular dados em Python, usar o Pandas para análise e o Spark para operações em grande escala no Azure Databricks.