video
35 visitas a la página
1592 visualizaciones de vídeo
2025, May 19, Monday

#061 Como ler dados no formato JSON no Azure Synapse Analytics

Apresentamos nesse vídeo como obter os munícipios do Brasil utilizando o Azure Synapse Analytics com extração dos dados em formato JSON na internet e armazenando no Azure Datalake em format Parquet.

Iremos conhecer as técnicas:

Criar pipeline com atividade de copiar dados:

No Azure Synapse Studio, crie um novo pipeline e adicione uma atividade de cópia de dados.

Configurar os dados de origem (HTTP, JSON):

No pipeline, adicione uma fonte de dados HTTP e configure para ler dados no formato JSON.

Obter URL dos dados no site do IBGE:

Acesse o site do IBGE (https://servicodados.ibge.gov.br/api/docs) para obter a URL dos dados a serem copiados.

Mapear o esquema dos dados de origem (IMPORT SCHEMA):

Utilize a atividade de cópia de dados para importar o esquema dos dados de origem.

Configurar os dados de destino (DATALAKE, PARQUET):

Adicione uma etapa de destino no pipeline, configurando o destino como um Data Lake e escolhendo o formato Parquet.

Alguns motivos para utilização do formato Parquet:

O formato Parquet é eficiente em termos de armazenamento e oferece compressão, suporte a esquema e leitura eficiente para processamento analítico.

Executar e monitorar gatilho (TRIGGER):

Configure e execute um gatilho para iniciar o pipeline e monitore o status da execução.

Identificar os custos da execução do pipeline (RUN CONSUMPTION):

Analise os custos associados à execução do pipeline usando ferramentas de monitoramento e consumo do Azure.

Gerar script de leitura do arquivo formato PARQUET:

Caso necessário, gere um script para ler dados do arquivo Parquet no ambiente desejado (por exemplo, usando Apache Spark).

Mapear as colunas de destino (MAPPING):

No pipeline, mapeie as colunas dos dados de origem para as colunas de destino no formato Parquet no Data Lake.

Este contenido contiene

Conteúdo video
Idioma Português
Duración 10m 1s
Subtítulos Não
Tiempo de leer 1 min 18 seg

Fabio Santos

Científico de datos y consultor de soluciones digitales y analíticas

Youtube Channel

@fabioms

También te puede gustar

#098 Como executar Pipeline em Loop no Azure Data Factory

2023, abril 30, domingo
Vídeo

Remover valores duplicados no Azure Databricks

2023, abril 26, quarta
Vídeo