Azure Data Factory (ADF) é um serviço de orquestração de dados na nuvem que permite criar, agendar e gerenciar pipelines de dados. Vamos abordar cada um dos tópicos mencionados:
1\. Armazenar arquivos no Azure Data Lake:
- Acesse o Azure Data Lake Storage Gen2 no portal do Azure.
- Crie ou selecione um contêiner para armazenar os arquivos.
- Faça o upload dos arquivos para o contêiner.
https://dadosabertos.mec.gov.br/pnp?start=0
- Exemplo: Você pode fazer upload de arquivos CSV, JSON, Parquet, entre outros, no Azure Data Lake Storage Gen2.
2\. Definir Variável do tipo de dados Matriz:
- No editor do pipeline do Azure Data Factory, clique em "Variáveis" no menu lateral.
- Crie uma nova variável e defina o tipo como "Array".
- Insira os valores desejados para a matriz.
{
"name": "ArrayOfValues",
"type": "Array",
"value": [
"Value1",
"Value2",
"Value3"
]
}
3\. Definir parâmetros em conjunto de dados:
- No editor do conjunto de dados, clique em "Parâmetros".
- Adicione os parâmetros necessários, como nome do arquivo, caminho, etc.
{
"name": "fileName",
"type": "String"
}
- No editor do pipeline, adicione uma atividade de cópia.
- Configure a fonte como o Azure Data Lake e o destino como desejado.
"source": {
"type": "AzureDataLakeStoreSource",
"storeSettings": {
"type": "AzureDataLakeStoreReadSettings",
"recursive": true
}
}
5\. Utilizar atividade de pesquisa em arquivo JSON:
- Adicione uma atividade de leitura de dados ao seu pipeline no Azure Data Factory.
- Configure a fonte como o Azure Data Lake Storage ou Blob Storage onde está localizado o arquivo JSON.
- Especifique o formato do arquivo como JSON e forneça o caminho para o arquivo JSON.
- Configure as propriedades da atividade de acordo com suas necessidades, como filtragem de dados, projeção de colunas, etc.
"activities": [
{
"name": "ReadJSONActivity",
"type": "Copy",
"inputs": [
{
"referenceName": "AzureDataLakeStorageLinkedService",
"type": "DatasetReference",
"parameters": {
"fileName": "example.json"
}
}
],
"outputs": [
{
"referenceName": "OutputDataset",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "JsonSource"
},
"sink": {
"type": "AzureBlobSink"
},
"enableStaging": false
}
}
]
6\. Armazenar dados no Azure SQL Database:
- Adicione uma atividade de cópia ao pipeline.
- Configure a fonte como desejado e o destino como o Azure SQL Database.
"sink": {
"type": "SqlServerSink",
"writeBatchSize": 10000,
"writeBatchTimeout": "00:05:00"
}
7\. Mapear colunas utilizando o conteúdo dinâmico:
- Durante a configuração da atividade de cópia, mapeie as colunas usando expressões dinâmicas.
{"type": "TabularTranslator",
"mappings": [
{"source": {"name": "Ano"},"sink": {"name": "Ano"}},
{"source": {"name": "UO"},"sink": {"name": "UO"}},
{"source": {"name": "Ação"},"sink": {"name": "Ação Governo"}},
{"source": {"name": "GND"},"sink": {"name": "GND"}},
{"source": {"name": "Despesas Liquidadas"},"sink": {"name": "Liquidacoes Totais"}}
]}
Esses passos e exemplos ilustram como realizar diversas operaç
ões com Azure Data Factory, desde o armazenamento e extração de dados até o mapeamento de colunas e utilização de atividades específicas.