Free cookie consent management tool by TermsFeed Policy Generator
  •  Vídeo
  •    13 visualizações da página
  •   1869 visualizações do vídeo
  • 2025, outubro 21, terça

#075 Como remover registros duplicados no Azure Data Factory

Apresentamos nesse vídeo como carregar planilhas eletrônicas do Azure Data Lake Storage removendo os registros duplicados, e configurando o gatilho para executar quando um novo arquivo é criado.

Iremos conhecer as técnicas:

1\. Habilitar as funcionalidades em preview do Azure Data Factory Studio (PREVIEW UPDATE):

  • Ao habilitar as funcionalidades em preview, você pode acessar e testar recursos e atualizações mais recentes no Azure Data Factory Studio antes de sua disponibilidade geral.

2\. Criar pasta e fazer upload de arquivos no Azure Data Lake Storage (AZURE STORAGE EXPLORER):

  • Utilizando o Azure Storage Explorer, é possível criar pastas e fazer upload de arquivos no Azure Data Lake Storage, proporcionando armazenamento eficiente e escalável para os dados.

3\. Criar Fluxo de Dados (DATAFLOW):

  • Os fluxos de dados são estruturas visuais no Azure Data Factory que permitem criar, modificar e gerenciar processos de ETL (Extração, Transformação e Carga) de maneira intuitiva.

4\. Adicionar fonte de dados de origem (SOURCE, EXCEL FORMAT, SHEET INDEX):

  • No fluxo de dados, é possível adicionar uma fonte de dados de origem, como um arquivo Excel, especificando o formato e o índice da planilha desejada.

5\. Carregar arquivos dinamicamente da pasta (SOURCE OPTIONS, WILDCARD PATHS):

  • Para facilitar a dinamicidade, podem-se usar opções de origem que suportam caminhos de curingas (wildcard paths) para carregar arquivos dinamicamente de uma pasta.

6\. Definir coluna para armazenar o arquivo associado ao registro (COLUMN, STORE FILE NAME):

  • Durante o processo de transformação, pode-se definir uma coluna para armazenar o nome do arquivo associado a cada registro, possibilitando rastrear a origem dos dados.

7\. Adicionar etapa de agregação dos valores (AGGREGATE, GROUP BY, COUNT):

  • Adicionando uma etapa de agregação, é possível resumir os valores dos registros com base em critérios específicos, como contagem (COUNT) em um grupo.

8\. Armazenar os registros em arquivo formato parquet (DATASET, PARQUET FORMAT):

  • Ao definir o formato do arquivo de destino como Parquet, você otimiza a eficiência de armazenamento e a leitu

ra dos dados.

9\. Definir as permissões de acesso do arquivo (UNMASK, OWNER, GROUPS, OTHERS):

  • É possível definir as permissões de acesso do arquivo para garantir a segurança dos dados, especificando máscaras de permissão, proprietários e grupos.

10\. Remover coluna do mapeamento (AUTO MAPPING, INPUT COLUMNS):

  • Caso necessário, é possível remover colunas do mapeamento durante a transformação dos dados, garantindo que apenas as colunas desejadas sejam incluídas no resultado final.

11\. Criar pipeline para executar o Fluxo de Dados (PIPELINE, DATA FLOW ACTIVITY):

  • Pipelines são usados para orquestrar e agendar atividades, incluindo a execução de fluxos de dados. A atividade de fluxo de dados dentro de um pipeline inicia a execução do processo ETL.

12\. Criar gatilho por eventos de armazenamento (TRIGGER, STORAGE EVENTS, BLOB CREATED):

  • Pode-se adicionar um gatilho que responda a eventos de armazenamento, como a criação de um blob. Isso permite que o pipeline seja acionado automaticamente quando novos dados são adicionados.

13\. Adicionar arquivo e visualizar o pipeline sendo executado automaticamente (TRIGGER RUNS, PIPELINE RUNS):

  • Ao adicionar um arquivo que atende aos critérios do gatilho, o pipeline será acionado automaticamente. Pode-se visualizar a execução do pipeline nos registros de execução.

Este contéudo contém
  • Conteúdo Vídeo
  • Idioma Português
  • Duração 10m 42s
  • Legenda Sim

  • Tempo de leitura 2 min 31 seg

avatar
Fabio Santos

Cientista de Dados e Consultor de Soluções Digitais e Analíticas


  • Compartilhe

Youtube Channel

@fabioms

Inscreva-se agora