Azure Databricks video
32 visitas a la página
693 visualizaciones de vídeo
2024, noviembre 18, lunes

#091 Eliminación de valores duplicados en Azure Databricks

Aprensentamos nesse vídeo como acessar arquivos do Azure Data Lake com assinatura compartilhada de acesso (SAS) no Azure Databricks para remover os registros duplicados do conjunto de dados.

Iremos conhecer as técnicas:

1. Instalar pacote Python para acessar Azure Data Lake (AZURE FILE DATALAKE STORAGE CLIENT):

Utilize o pacote azure-storage-file-datalake para acessar o Azure Data Lake Storage a partir de um ambiente Python.
Exemplo de instalação:
```
pip install azure-storage-file-datalake
```

2. Instalar pacote Python para ler arquivo Excel (OPENPYXL, READ, WRITE, EXCEL FILE, XLSX, XLSM):

O pacote openpyxl é comumente usado para manipular arquivos Excel em Python.
Exemplo de instalação:
```
pip install openpyxl
```

3. Obter o caminho do arquivo no Azure Data Lake (STORAGE ACCOUNT, CONTAINERS, FILESYSTEM, OVERVIEW, URL):

Para obter o caminho do arquivo no Azure Data Lake, consulte as informações do Storage Account, Containers e FileSystem no Portal Azure.

4. Criar assinatura de acesso compartilhado (SAS):

Crie uma Assinatura de Acesso Compartilhado (SAS) para conceder acesso temporário aos recursos do Azure, como arquivos no Data Lake.

5. Ler arquivo Excel e combinar registros (READ EXCEL, APPEND):

Use o pacote openpyxl para ler arquivos Excel e combinar registros conforme necessário.

6. Conhecer os dados (PANDAS, INFO, ENTRIES, COLUMNS):

O Pandas é uma biblioteca poderosa para manipulação e análise de dados em Python. Use pandas.DataFrame.info() para obter informações sobre os dados, como colunas e tipos.

7. Identificar e remover registros duplicados (DUPLICATED, SUBSET, KEEP):

Utilize as funções do Pandas, como duplicated(), subset e keep, para identificar e remover registros duplicados.

8. Salvar registros em tabela do Azure Databricks (DATA CATALOG, SPARK, WRITE, TABLE):

Use o contexto Spark no Azure Databricks para escrever dados em uma tabela.
Exemplo:
```
df.write.format("delta").mode("overwrite").saveAsTable("nome_da_tabela")
```

9. Consultar tabela e visualizar em gráfico integrado (SPARK SQL, DISPLAY):

Utilize Spark SQL para consultar a tabela e a função display() para visualizar os resultados em um gráfico integrado no ambiente Databricks.
Exemplo:
```
result = spark.sql("SELECT * FROM nome_da_tabela")
display(result)
```

Esses passos ilustram como acessar o Azure Data Lake, manipular dados em Python, usar o Pandas para análise e o Spark para operações em grande escala no Azure Databricks.

Este contenido contiene

Conteúdo video
Idioma Português
Duración 11m 17s
Subtítulos Sim
Tiempo de leer 1 min 43 seg

Fabio Santos

Científico de datos y consultor de soluciones digitales y analíticas

Youtube Channel

@fabioms

También te puede gustar

Como Calcular Total Acumulado no SQL Server

2023, fevereiro 19, domingo
Vídeo

Como Criar e Quanto Custa o recurso Azure Data Lake

2023, maio 11, quinta
Vídeo