Azure Databricks Video
32 page views
693 video views
2024, November 18, Monday

#091 Remove duplicate values in Azure Databricks

Aprensentamos nesse vídeo como acessar arquivos do Azure Data Lake com assinatura compartilhada de acesso (SAS) no Azure Databricks para remover os registros duplicados do conjunto de dados.

Iremos conhecer as técnicas:

1. Instalar pacote Python para acessar Azure Data Lake (AZURE FILE DATALAKE STORAGE CLIENT):

Utilize o pacote azure-storage-file-datalake para acessar o Azure Data Lake Storage a partir de um ambiente Python.
Exemplo de instalação:
```
pip install azure-storage-file-datalake
```

2. Instalar pacote Python para ler arquivo Excel (OPENPYXL, READ, WRITE, EXCEL FILE, XLSX, XLSM):

O pacote openpyxl é comumente usado para manipular arquivos Excel em Python.
Exemplo de instalação:
```
pip install openpyxl
```

3. Obter o caminho do arquivo no Azure Data Lake (STORAGE ACCOUNT, CONTAINERS, FILESYSTEM, OVERVIEW, URL):

Para obter o caminho do arquivo no Azure Data Lake, consulte as informações do Storage Account, Containers e FileSystem no Portal Azure.

4. Criar assinatura de acesso compartilhado (SAS):

Crie uma Assinatura de Acesso Compartilhado (SAS) para conceder acesso temporário aos recursos do Azure, como arquivos no Data Lake.

5. Ler arquivo Excel e combinar registros (READ EXCEL, APPEND):

Use o pacote openpyxl para ler arquivos Excel e combinar registros conforme necessário.

6. Conhecer os dados (PANDAS, INFO, ENTRIES, COLUMNS):

O Pandas é uma biblioteca poderosa para manipulação e análise de dados em Python. Use pandas.DataFrame.info() para obter informações sobre os dados, como colunas e tipos.

7. Identificar e remover registros duplicados (DUPLICATED, SUBSET, KEEP):

Utilize as funções do Pandas, como duplicated(), subset e keep, para identificar e remover registros duplicados.

8. Salvar registros em tabela do Azure Databricks (DATA CATALOG, SPARK, WRITE, TABLE):

Use o contexto Spark no Azure Databricks para escrever dados em uma tabela.
Exemplo:
```
df.write.format("delta").mode("overwrite").saveAsTable("nome_da_tabela")
```

9. Consultar tabela e visualizar em gráfico integrado (SPARK SQL, DISPLAY):

Utilize Spark SQL para consultar a tabela e a função display() para visualizar os resultados em um gráfico integrado no ambiente Databricks.
Exemplo:
```
result = spark.sql("SELECT * FROM nome_da_tabela")
display(result)
```

Esses passos ilustram como acessar o Azure Data Lake, manipular dados em Python, usar o Pandas para análise e o Spark para operações em grande escala no Azure Databricks.