Iremos conhecer as técnicas:
1. Habilitar as funcionalidades em preview do Azure Data Factory Studio (PREVIEW UPDATE):
- Ao habilitar as funcionalidades em preview, você pode acessar e testar recursos e atualizações mais recentes no Azure Data Factory Studio antes de sua disponibilidade geral.
2. Criar pasta e fazer upload de arquivos no Azure Data Lake Storage (AZURE STORAGE EXPLORER):
- Utilizando o Azure Storage Explorer, é possível criar pastas e fazer upload de arquivos no Azure Data Lake Storage, proporcionando armazenamento eficiente e escalável para os dados.
3. Criar Fluxo de Dados (DATAFLOW):
- Os fluxos de dados são estruturas visuais no Azure Data Factory que permitem criar, modificar e gerenciar processos de ETL (Extração, Transformação e Carga) de maneira intuitiva.
4. Adicionar fonte de dados de origem (SOURCE, EXCEL FORMAT, SHEET INDEX):
- No fluxo de dados, é possível adicionar uma fonte de dados de origem, como um arquivo Excel, especificando o formato e o índice da planilha desejada.
5. Carregar arquivos dinamicamente da pasta (SOURCE OPTIONS, WILDCARD PATHS):
- Para facilitar a dinamicidade, podem-se usar opções de origem que suportam caminhos de curingas (wildcard paths) para carregar arquivos dinamicamente de uma pasta.
6. Definir coluna para armazenar o arquivo associado ao registro (COLUMN, STORE FILE NAME):
- Durante o processo de transformação, pode-se definir uma coluna para armazenar o nome do arquivo associado a cada registro, possibilitando rastrear a origem dos dados.
7. Adicionar etapa de agregação dos valores (AGGREGATE, GROUP BY, COUNT):
- Adicionando uma etapa de agregação, é possível resumir os valores dos registros com base em critérios específicos, como contagem (COUNT) em um grupo.
8. Armazenar os registros em arquivo formato parquet (DATASET, PARQUET FORMAT):
- Ao definir o formato do arquivo de destino como Parquet, você otimiza a eficiência de armazenamento e a leitura dos dados.
9. Definir as permissões de acesso do arquivo (UNMASK, OWNER, GROUPS, OTHERS):
- É possível definir as permissões de acesso do arquivo para garantir a segurança dos dados, especificando máscaras de permissão, proprietários e grupos.
10. Remover coluna do mapeamento (AUTO MAPPING, INPUT COLUMNS):
- Caso necessário, é possível remover colunas do mapeamento durante a transformação dos dados, garantindo que apenas as colunas desejadas sejam incluídas no resultado final.
11. Criar pipeline para executar o Fluxo de Dados (PIPELINE, DATA FLOW ACTIVITY):
- Pipelines são usados para orquestrar e agendar atividades, incluindo a execução de fluxos de dados. A atividade de fluxo de dados dentro de um pipeline inicia a execução do processo ETL.
12. Criar gatilho por eventos de armazenamento (TRIGGER, STORAGE EVENTS, BLOB CREATED):
- Pode-se adicionar um gatilho que responda a eventos de armazenamento, como a criação de um blob. Isso permite que o pipeline seja acionado automaticamente quando novos dados são adicionados.
13. Adicionar arquivo e visualizar o pipeline sendo executado automaticamente (TRIGGER RUNS, PIPELINE RUNS):
- Ao adicionar um arquivo que atende aos critérios do gatilho, o pipeline será acionado automaticamente. Pode-se visualizar a execução do pipeline nos registros de execução.