Azure Databricks Vídeo
32 visualizações da página
693 visualizações do vídeo
2024, novembro 18, segunda

#091 Remover valores duplicados no Azure Databricks

Aprensentamos nesse vídeo como acessar arquivos do Azure Data Lake com assinatura compartilhada de acesso (SAS) no Azure Databricks para remover os registros duplicados do conjunto de dados.

Iremos conhecer as técnicas:

1. Instalar pacote Python para acessar Azure Data Lake (AZURE FILE DATALAKE STORAGE CLIENT):

Utilize o pacote azure-storage-file-datalake para acessar o Azure Data Lake Storage a partir de um ambiente Python.
Exemplo de instalação:
```
pip install azure-storage-file-datalake
```

2. Instalar pacote Python para ler arquivo Excel (OPENPYXL, READ, WRITE, EXCEL FILE, XLSX, XLSM):

O pacote openpyxl é comumente usado para manipular arquivos Excel em Python.
Exemplo de instalação:
```
pip install openpyxl
```

3. Obter o caminho do arquivo no Azure Data Lake (STORAGE ACCOUNT, CONTAINERS, FILESYSTEM, OVERVIEW, URL):

Para obter o caminho do arquivo no Azure Data Lake, consulte as informações do Storage Account, Containers e FileSystem no Portal Azure.

4. Criar assinatura de acesso compartilhado (SAS):

Crie uma Assinatura de Acesso Compartilhado (SAS) para conceder acesso temporário aos recursos do Azure, como arquivos no Data Lake.

5. Ler arquivo Excel e combinar registros (READ EXCEL, APPEND):

Use o pacote openpyxl para ler arquivos Excel e combinar registros conforme necessário.

6. Conhecer os dados (PANDAS, INFO, ENTRIES, COLUMNS):

O Pandas é uma biblioteca poderosa para manipulação e análise de dados em Python. Use pandas.DataFrame.info() para obter informações sobre os dados, como colunas e tipos.

7. Identificar e remover registros duplicados (DUPLICATED, SUBSET, KEEP):

Utilize as funções do Pandas, como duplicated(), subset e keep, para identificar e remover registros duplicados.

8. Salvar registros em tabela do Azure Databricks (DATA CATALOG, SPARK, WRITE, TABLE):

Use o contexto Spark no Azure Databricks para escrever dados em uma tabela.
Exemplo:
```
df.write.format("delta").mode("overwrite").saveAsTable("nome_da_tabela")
```

9. Consultar tabela e visualizar em gráfico integrado (SPARK SQL, DISPLAY):

Utilize Spark SQL para consultar a tabela e a função display() para visualizar os resultados em um gráfico integrado no ambiente Databricks.
Exemplo:
```
result = spark.sql("SELECT * FROM nome_da_tabela")
display(result)
```

Esses passos ilustram como acessar o Azure Data Lake, manipular dados em Python, usar o Pandas para análise e o Spark para operações em grande escala no Azure Databricks.

Este contéudo contém

Conteúdo Vídeo
Idioma Português
Duração 11m 17s
Legenda Sim
Tempo de leitura 1 min 43 seg

Fabio Santos

Cientista de Dados e Consultor de Soluções Digitais e Analíticas

Compartilhe

Youtube Channel

@fabioms

#091 Remover valores duplicados no Azure Databricks

Iremos conhecer as técnicas:

Este contéudo contém

Fabio Santos

Youtube Channel

Você também pode gostar

Converter variáveis categóricas em log de eventos no Azure SQL Server

Como preencher valores entre datas no SQL Server