Iremos conhecer as técnicas:
1. Instalar pacote Python para acessar Azure Data Lake (AZURE FILE DATALAKE STORAGE CLIENT):
2. Instalar pacote Python para ler arquivo Excel (OPENPYXL, READ, WRITE, EXCEL FILE, XLSX, XLSM):
3. Obter o caminho do arquivo no Azure Data Lake (STORAGE ACCOUNT, CONTAINERS, FILESYSTEM, OVERVIEW, URL):
- Para obter o caminho do arquivo no Azure Data Lake, consulte as informações do Storage Account, Containers e FileSystem no Portal Azure.
4. Criar assinatura de acesso compartilhado (SAS):
- Crie uma Assinatura de Acesso Compartilhado (SAS) para conceder acesso temporário aos recursos do Azure, como arquivos no Data Lake.
5. Ler arquivo Excel e combinar registros (READ EXCEL, APPEND):
- Use o pacote openpyxl para ler arquivos Excel e combinar registros conforme necessário.
6. Conhecer os dados (PANDAS, INFO, ENTRIES, COLUMNS):
- O Pandas é uma biblioteca poderosa para manipulação e análise de dados em Python. Use pandas.DataFrame.info() para obter informações sobre os dados, como colunas e tipos.
7. Identificar e remover registros duplicados (DUPLICATED, SUBSET, KEEP):
- Utilize as funções do Pandas, como duplicated(), subset e keep, para identificar e remover registros duplicados.
8. Salvar registros em tabela do Azure Databricks (DATA CATALOG, SPARK, WRITE, TABLE):
9. Consultar tabela e visualizar em gráfico integrado (SPARK SQL, DISPLAY):
Utilize Spark SQL para consultar a tabela e a função display() para visualizar os resultados em um gráfico integrado no ambiente Databricks.
Exemplo:
result = spark.sql("SELECT * FROM nome_da_tabela")
display(result)
Esses passos ilustram como acessar o Azure Data Lake, manipular dados em Python, usar o Pandas para análise e o Spark para operações em grande escala no Azure Databricks.