Azure Data Factory Vídeo
13 visualizações da página
1792 visualizações do vídeo
2024, novembro 20, quarta

#075 Como remover registros duplicados no Azure Data Factory

Apresentamos nesse vídeo como carregar planilhas eletrônicas do Azure Data Lake Storage removendo os registros duplicados, e configurando o gatilho para executar quando um novo arquivo é criado.

Iremos conhecer as técnicas:

1. Habilitar as funcionalidades em preview do Azure Data Factory Studio (PREVIEW UPDATE):

Ao habilitar as funcionalidades em preview, você pode acessar e testar recursos e atualizações mais recentes no Azure Data Factory Studio antes de sua disponibilidade geral.

2. Criar pasta e fazer upload de arquivos no Azure Data Lake Storage (AZURE STORAGE EXPLORER):

Utilizando o Azure Storage Explorer, é possível criar pastas e fazer upload de arquivos no Azure Data Lake Storage, proporcionando armazenamento eficiente e escalável para os dados.

3. Criar Fluxo de Dados (DATAFLOW):

Os fluxos de dados são estruturas visuais no Azure Data Factory que permitem criar, modificar e gerenciar processos de ETL (Extração, Transformação e Carga) de maneira intuitiva.

4. Adicionar fonte de dados de origem (SOURCE, EXCEL FORMAT, SHEET INDEX):

No fluxo de dados, é possível adicionar uma fonte de dados de origem, como um arquivo Excel, especificando o formato e o índice da planilha desejada.

5. Carregar arquivos dinamicamente da pasta (SOURCE OPTIONS, WILDCARD PATHS):

Para facilitar a dinamicidade, podem-se usar opções de origem que suportam caminhos de curingas (wildcard paths) para carregar arquivos dinamicamente de uma pasta.

6. Definir coluna para armazenar o arquivo associado ao registro (COLUMN, STORE FILE NAME):

Durante o processo de transformação, pode-se definir uma coluna para armazenar o nome do arquivo associado a cada registro, possibilitando rastrear a origem dos dados.

7. Adicionar etapa de agregação dos valores (AGGREGATE, GROUP BY, COUNT):

Adicionando uma etapa de agregação, é possível resumir os valores dos registros com base em critérios específicos, como contagem (COUNT) em um grupo.

8. Armazenar os registros em arquivo formato parquet (DATASET, PARQUET FORMAT):

Ao definir o formato do arquivo de destino como Parquet, você otimiza a eficiência de armazenamento e a leitura dos dados.

9. Definir as permissões de acesso do arquivo (UNMASK, OWNER, GROUPS, OTHERS):

É possível definir as permissões de acesso do arquivo para garantir a segurança dos dados, especificando máscaras de permissão, proprietários e grupos.

10. Remover coluna do mapeamento (AUTO MAPPING, INPUT COLUMNS):

Caso necessário, é possível remover colunas do mapeamento durante a transformação dos dados, garantindo que apenas as colunas desejadas sejam incluídas no resultado final.

11. Criar pipeline para executar o Fluxo de Dados (PIPELINE, DATA FLOW ACTIVITY):

Pipelines são usados para orquestrar e agendar atividades, incluindo a execução de fluxos de dados. A atividade de fluxo de dados dentro de um pipeline inicia a execução do processo ETL.

12. Criar gatilho por eventos de armazenamento (TRIGGER, STORAGE EVENTS, BLOB CREATED):

Pode-se adicionar um gatilho que responda a eventos de armazenamento, como a criação de um blob. Isso permite que o pipeline seja acionado automaticamente quando novos dados são adicionados.

13. Adicionar arquivo e visualizar o pipeline sendo executado automaticamente (TRIGGER RUNS, PIPELINE RUNS):

Ao adicionar um arquivo que atende aos critérios do gatilho, o pipeline será acionado automaticamente. Pode-se visualizar a execução do pipeline nos registros de execução.

Este contéudo contém

Conteúdo Vídeo
Idioma Português
Duração 10m 42s
Legenda Sim
Tempo de leitura 2 min 30 seg

Fabio Santos

Cientista de Dados e Consultor de Soluções Digitais e Analíticas

Compartilhe

Youtube Channel

@fabioms

#075 Como remover registros duplicados no Azure Data Factory

Iremos conhecer as técnicas:

Este contéudo contém

Fabio Santos

Youtube Channel

Você também pode gostar

Enviar email ao Inserir Registro do Azure SQL no Power Automate

Como aprender Gerar QRCode com Python no SQL Server