Azure Data Factory Vídeo
13 visualizações da página
1792 visualizações do vídeo
2024, novembro 20, quarta

#075 Como remover registros duplicados no Azure Data Factory

Apresentamos nesse vídeo como carregar planilhas eletrônicas do Azure Data Lake Storage removendo os registros duplicados, e configurando o gatilho para executar quando um novo arquivo é criado.

Iremos conhecer as técnicas:

1. Habilitar as funcionalidades em preview do Azure Data Factory Studio (PREVIEW UPDATE):

Ao habilitar as funcionalidades em preview, você pode acessar e testar recursos e atualizações mais recentes no Azure Data Factory Studio antes de sua disponibilidade geral.

2. Criar pasta e fazer upload de arquivos no Azure Data Lake Storage (AZURE STORAGE EXPLORER):

Utilizando o Azure Storage Explorer, é possível criar pastas e fazer upload de arquivos no Azure Data Lake Storage, proporcionando armazenamento eficiente e escalável para os dados.

3. Criar Fluxo de Dados (DATAFLOW):

Os fluxos de dados são estruturas visuais no Azure Data Factory que permitem criar, modificar e gerenciar processos de ETL (Extração, Transformação e Carga) de maneira intuitiva.

4. Adicionar fonte de dados de origem (SOURCE, EXCEL FORMAT, SHEET INDEX):

No fluxo de dados, é possível adicionar uma fonte de dados de origem, como um arquivo Excel, especificando o formato e o índice da planilha desejada.

5. Carregar arquivos dinamicamente da pasta (SOURCE OPTIONS, WILDCARD PATHS):

Para facilitar a dinamicidade, podem-se usar opções de origem que suportam caminhos de curingas (wildcard paths) para carregar arquivos dinamicamente de uma pasta.

6. Definir coluna para armazenar o arquivo associado ao registro (COLUMN, STORE FILE NAME):

Durante o processo de transformação, pode-se definir uma coluna para armazenar o nome do arquivo associado a cada registro, possibilitando rastrear a origem dos dados.

7. Adicionar etapa de agregação dos valores (AGGREGATE, GROUP BY, COUNT):

Adicionando uma etapa de agregação, é possível resumir os valores dos registros com base em critérios específicos, como contagem (COUNT) em um grupo.

8. Armazenar os registros em arquivo formato parquet (DATASET, PARQUET FORMAT):

Ao definir o formato do arquivo de destino como Parquet, você otimiza a eficiência de armazenamento e a leitura dos dados.

9. Definir as permissões de acesso do arquivo (UNMASK, OWNER, GROUPS, OTHERS):

É possível definir as permissões de acesso do arquivo para garantir a segurança dos dados, especificando máscaras de permissão, proprietários e grupos.

10. Remover coluna do mapeamento (AUTO MAPPING, INPUT COLUMNS):

Caso necessário, é possível remover colunas do mapeamento durante a transformação dos dados, garantindo que apenas as colunas desejadas sejam incluídas no resultado final.

11. Criar pipeline para executar o Fluxo de Dados (PIPELINE, DATA FLOW ACTIVITY):

Pipelines são usados para orquestrar e agendar atividades, incluindo a execução de fluxos de dados. A atividade de fluxo de dados dentro de um pipeline inicia a execução do processo ETL.

12. Criar gatilho por eventos de armazenamento (TRIGGER, STORAGE EVENTS, BLOB CREATED):

Pode-se adicionar um gatilho que responda a eventos de armazenamento, como a criação de um blob. Isso permite que o pipeline seja acionado automaticamente quando novos dados são adicionados.

13. Adicionar arquivo e visualizar o pipeline sendo executado automaticamente (TRIGGER RUNS, PIPELINE RUNS):

Ao adicionar um arquivo que atende aos critérios do gatilho, o pipeline será acionado automaticamente. Pode-se visualizar a execução do pipeline nos registros de execução.

Este contéudo contém

Conteúdo Vídeo
Idioma Português
Duração 10m 42s
Legenda Sim
Tempo de leitura 2 min 30 seg

Fabio Santos

Cientista de Dados e Consultor de Soluções Digitais e Analíticas

Compartilhe

Youtube Channel

@fabioms

#075 Como remover registros duplicados no Azure Data Factory

Iremos conhecer as técnicas:

Este contéudo contém

Fabio Santos

Youtube Channel

Você também pode gostar

Como Remover registros duplicados no SQL Server

Como migrar banco de dados Access para o SQL Server