Aprensentamos nesse vídeo como acessar arquivos do Azure Data Lake com assinatura compartilhada de acesso (SAS) no Azure Databricks para remover os registros duplicados do conjunto de dados.
1. Instalar pacote Python para acessar Azure Data Lake (AZURE FILE DATALAKE STORAGE CLIENT):
Utilize o pacote azure-storage-file-datalake para acessar o Azure Data Lake Storage a partir de um ambiente Python.
Exemplo de instalação:
pip install azure-storage-file-datalake
2. Instalar pacote Python para ler arquivo Excel (OPENPYXL, READ, WRITE, EXCEL FILE, XLSX, XLSM):
O pacote openpyxl é comumente usado para manipular arquivos Excel em Python.
Exemplo de instalação:
pip install openpyxl
3. Obter o caminho do arquivo no Azure Data Lake (STORAGE ACCOUNT, CONTAINERS, FILESYSTEM, OVERVIEW, URL):
4. Criar assinatura de acesso compartilhado (SAS):
5. Ler arquivo Excel e combinar registros (READ EXCEL, APPEND):
6. Conhecer os dados (PANDAS, INFO, ENTRIES, COLUMNS):
7. Identificar e remover registros duplicados (DUPLICATED, SUBSET, KEEP):
8. Salvar registros em tabela do Azure Databricks (DATA CATALOG, SPARK, WRITE, TABLE):
Use o contexto Spark no Azure Databricks para escrever dados em uma tabela.
Exemplo:
df.write.format("delta").mode("overwrite").saveAsTable("nome_da_tabela")
9. Consultar tabela e visualizar em gráfico integrado (SPARK SQL, DISPLAY):
Utilize Spark SQL para consultar a tabela e a função display() para visualizar os resultados em um gráfico integrado no ambiente Databricks.
Exemplo:
result = spark.sql("SELECT * FROM nome_da_tabela") display(result)
Esses passos ilustram como acessar o Azure Data Lake, manipular dados em Python, usar o Pandas para análise e o Spark para operações em grande escala no Azure Databricks.
Científico de datos y consultor de soluciones digitales y analíticas
@fabioms