Free cookie consent management tool by TermsFeed Policy Generator
  • Azure Data Factory Vídeo
  •    13 visualizações da página
  •   1792 visualizações do vídeo
  • 2024, novembro 20, quarta

#075 Como remover registros duplicados no Azure Data Factory

Apresentamos nesse vídeo como carregar planilhas eletrônicas do Azure Data Lake Storage removendo os registros duplicados, e configurando o gatilho para executar quando um novo arquivo é criado.

Iremos conhecer as técnicas:

1. Habilitar as funcionalidades em preview do Azure Data Factory Studio (PREVIEW UPDATE):

  • Ao habilitar as funcionalidades em preview, você pode acessar e testar recursos e atualizações mais recentes no Azure Data Factory Studio antes de sua disponibilidade geral.

2. Criar pasta e fazer upload de arquivos no Azure Data Lake Storage (AZURE STORAGE EXPLORER):

  • Utilizando o Azure Storage Explorer, é possível criar pastas e fazer upload de arquivos no Azure Data Lake Storage, proporcionando armazenamento eficiente e escalável para os dados.

3. Criar Fluxo de Dados (DATAFLOW):

  • Os fluxos de dados são estruturas visuais no Azure Data Factory que permitem criar, modificar e gerenciar processos de ETL (Extração, Transformação e Carga) de maneira intuitiva.

4. Adicionar fonte de dados de origem (SOURCE, EXCEL FORMAT, SHEET INDEX):

  • No fluxo de dados, é possível adicionar uma fonte de dados de origem, como um arquivo Excel, especificando o formato e o índice da planilha desejada.

5. Carregar arquivos dinamicamente da pasta (SOURCE OPTIONS, WILDCARD PATHS):

  • Para facilitar a dinamicidade, podem-se usar opções de origem que suportam caminhos de curingas (wildcard paths) para carregar arquivos dinamicamente de uma pasta.

6. Definir coluna para armazenar o arquivo associado ao registro (COLUMN, STORE FILE NAME):

  • Durante o processo de transformação, pode-se definir uma coluna para armazenar o nome do arquivo associado a cada registro, possibilitando rastrear a origem dos dados.

7. Adicionar etapa de agregação dos valores (AGGREGATE, GROUP BY, COUNT):

  • Adicionando uma etapa de agregação, é possível resumir os valores dos registros com base em critérios específicos, como contagem (COUNT) em um grupo.

8. Armazenar os registros em arquivo formato parquet (DATASET, PARQUET FORMAT):

  • Ao definir o formato do arquivo de destino como Parquet, você otimiza a eficiência de armazenamento e a leitura dos dados.

9. Definir as permissões de acesso do arquivo (UNMASK, OWNER, GROUPS, OTHERS):

  • É possível definir as permissões de acesso do arquivo para garantir a segurança dos dados, especificando máscaras de permissão, proprietários e grupos.

10. Remover coluna do mapeamento (AUTO MAPPING, INPUT COLUMNS):

  • Caso necessário, é possível remover colunas do mapeamento durante a transformação dos dados, garantindo que apenas as colunas desejadas sejam incluídas no resultado final.

11. Criar pipeline para executar o Fluxo de Dados (PIPELINE, DATA FLOW ACTIVITY):

  • Pipelines são usados para orquestrar e agendar atividades, incluindo a execução de fluxos de dados. A atividade de fluxo de dados dentro de um pipeline inicia a execução do processo ETL.

12. Criar gatilho por eventos de armazenamento (TRIGGER, STORAGE EVENTS, BLOB CREATED):

  • Pode-se adicionar um gatilho que responda a eventos de armazenamento, como a criação de um blob. Isso permite que o pipeline seja acionado automaticamente quando novos dados são adicionados.

13. Adicionar arquivo e visualizar o pipeline sendo executado automaticamente (TRIGGER RUNS, PIPELINE RUNS):

  • Ao adicionar um arquivo que atende aos critérios do gatilho, o pipeline será acionado automaticamente. Pode-se visualizar a execução do pipeline nos registros de execução.

Este contéudo contém
  • Conteúdo Vídeo
  • Idioma Português
  • Duração 10m 42s
  • Legenda Sim

  • Tempo de leitura 2 min 30 seg

avatar
Fabio Santos

Cientista de Dados e Consultor de Soluções Digitais e Analíticas


  • Compartilhe

Youtube Channel

@fabioms

Inscreva-se agora