Free cookie consent management tool by TermsFeed Policy Generator
  • Azure Data Factory Vídeo
  •    5 visualizações da página
  •   1140 visualizações do vídeo
  • 2024, novembro 06, quarta

#064 Como Fazer Web Scraping no Azure Data Factory

Apresentamos nesse vídeo a técnica de garinpar dados conhecida como web scraping utilizando o Azure Data Factory, extraindo os valores de cotações da bolsa de valores em tabela de página da internet

Iremos conhecer as etapas:

1. Criar Serviço Vinculado Tabela Web (LINKED SERVICE, WEB TABLE):

  • Utilize a interface do Azure Data Factory para criar um serviço vinculado que se conecta a uma tabela na web. Isso envolve especificar informações de autenticação e detalhes da tabela.

2. Utilizar Integration Runtime Auto-hospedado (INTEGRATION RUNTIME SELF-HOSTED):

  • Configure um Integration Runtime auto-hospedado para possibilitar a execução de atividades de transferência de dados em seu ambiente local.

3. Definir URL da página de internet para cotações da bolsa de valores (YAHOO FINANCE):

  • Forneça a URL da página web que contém as cotações da bolsa de valores. Isso geralmente envolve acessar uma API ou página HTML.

4. Criar conjunto de dados de origem Tabela Web (DATASET, WEB TABLE, SOURCE):

  • Crie um conjunto de dados que represente a tabela web de onde os dados serão extraídos. Configure o serviço vinculado da tabela web para se conectar aos dados.

5. Definir o índice da tabela e previsualizar os dados (INDEX, PREVIEW DATA):

  • Configure o índice da tabela web e, se possível, visualize os dados para garantir que a conexão está funcionando conforme esperado.

6. Criar conjunto de dados de destino Sistema de Arquivos (DATASET, FILE SYSTEM, SINK):

  • Crie um conjunto de dados que represente o destino onde os dados serão copiados, como um sistema de arquivos local.

7. Definir o tipo de formato do arquivo (DELIMITEDTEXT):

  • Especifique o formato do arquivo para o destino, como texto delimitado, se aplicável.

8. Criar Pipeline com atividade copiar dados (PIPELINE, COPY DATA ACTIVITY):

  • Construa um pipeline que inclua uma atividade de cópia de dados, conectando o conjunto de dados de origem ao conjunto de dados de destino.

9. Mapear tipo de dado das colunas (IMPORT SCHEMAS):

  • No processo de cópia de dados, mapeie os tipos de dados das colunas da tabela web para as colunas no destino.

10. Executar por gatilho Pipeline (TRIGGER NOW):

  • Configure um gatilho para iniciar o pipeline, seja manualmente ou com base em uma condição específica, como um cronograma.

11. Exibir o resultado do arquivo gerado no servidor on-premises (CSV, WINDOWS SERVER):

  • Após a execução do pipeline, verifique o servidor local para garantir que o arquivo gerado (no formato especificado, como CSV) foi copiado com sucesso.

Esses passos descrevem um fluxo comum no Azure Data Factory para extrair dados de uma tabela web, transformá-los, se necessário, e carregá-los em um sistema de arquivos local. Os detalhes específicos podem variar com base no ambiente e nos requisitos.

Este contéudo contém
  • Conteúdo Vídeo
  • Idioma Português
  • Duração 9m 56s
  • Legenda Não

  • Tempo de leitura 2 min 8 seg

avatar
Fabio Santos

Cientista de Dados e Consultor de Soluções Digitais e Analíticas


  • Compartilhe

Youtube Channel

@fabioms

Inscreva-se agora