Free cookie consent management tool by TermsFeed Policy Generator

Como Fazer Web Scraping no Azure Synapse Analytics

Apresentamos nesse video como utilizar a técnica de Web Scraping para extrair dados de páginas da internet utilizando o Python no Azure Synapse Analytics.

Iremos conhecer as técnicas:

1. Utilizar notebook com instância Apache Spark anexado e linguagem de programação Python (ATTACH TO, LANGUAGE, PYSPARK):

  • No Azure Synapse Analytics, você pode criar notebooks usando a instância Apache Spark e a linguagem Python. O comando ATTACH TO é usado para conectar o notebook à instância Spark, e a linguagem é definida como Python com LANGUAGE.

    -- Comando para anexar ao Spark em Python
    %pyspark
    

2. Visualizar os recursos associados à instância Apache Spark (CONFIGURE SESSION):

  • Para visualizar e configurar os recursos associados à instância Spark, você pode usar comandos como CONFIGURE SESSION. Isso permite definir configurações específicas da sessão Spark.

    -- Configurar recursos da sessão Spark
    spark.conf.set("spark.some.config.option", "config-value")
    

3. Identificar os pacotes instalados da instância Apache Spark (PKG_RESOURCES, WORKING_SET, PRINT):

  • Você pode identificar os pacotes Python instalados na instância Spark usando bibliotecas como pkg_resources e working_set.

    -- Identificar pacotes instalados
    import pkg_resources
    for package in pkg_resources.working_set:
      print(package)
    

4. Importar pacotes Python (PANDAS, REQUESTS, BEAUTIFULSOUP):

  • Importar bibliotecas Python necessárias para manipulação de dados, requisições web e scraping.

    import pandas as pd
    import requests
    from bs4 import BeautifulSoup
    

5. Obter conteúdo de página da internet (REQUESTS, HTML CODE, ELEMENTS, TABLES, ROWS, COLUMNS):

  • Use bibliotecas como requests e BeautifulSoup para obter o conteúdo de uma página web e extrair informações.

    url = 'https://example.com'
    response = requests.get(url)
    html_code = response.text
    

6. Converter elementos do código HTML em lista Array (BEAUTIFULSOUP, HTML5LIB):

  • Use o BeautifulSoup para analisar o código HTML e extrair dados.

    soup = BeautifulSoup(html_code, 'html5lib')
    tables = soup.find_all('table')
    

7. Interagir e identificar elementos na lista Array (FIND_ALL, TABLE, FOR, ENUMERATE):

  • Iterar sobre elementos em uma lista e extrair informações específicas.

    for i, table in enumerate(tables):
      print(f"Table {i + 1}:")
      rows = table.find_all('tr')
      for row in rows:
          columns = row.find_all('td')
          for col in columns:
              print(col.text)
    

8. Criar Dataframe (PANDAS, COLUMNS):

  • Use a biblioteca Pandas para criar um DataFrame com os dados extraídos.

    data = {'Column1': [value1, value2, ...], 'Column2': [value1, value2, ...]}
    df = pd.DataFrame(data, columns=['Column1', 'Column2'])
    

9. Adicionar registros ao Dataframe (APPEND):

  • Adicione novos registros ao DataFrame conforme necessário.

    new_data = {'Column1': [new_value1], 'Column2': [new_value2]}
    df = df.append(pd.DataFrame(new_data), ignore_index=True)
    

10. Visualizar os dados existentes no Dataframe:

- Visualize os dados do DataFrame.
   print(df)

11. Salvar os registros do Dataframe em arquivo no formato Parquet (PANDAS, TO_PARQUET, AZURE DATA LAKE STORAGE):

- Salve os registros do DataFrame em um arquivo Parquet.
   df.to_parquet('output.parquet')
   # Upload para o Azure Data Lake Storage

12. Consultar os registros em script SQL:

- Execute consultas SQL no Azure Synapse Analytics para analisar ou manipular os dados.
   -- Consulta SQL
   spark.sql("SELECT * FROM my_table").show()

Este contéudo contém
  • Conteúdo Vídeo
  • Idioma Português
  • Duração 10m 39s
  • Legenda Sim

  • Tempo de leitura 2 min 29 seg

avatar
Fabio Santos

Cientista de Dados e Consultor de Soluções Digitais e Analíticas


  • Compartilhe

Youtube Channel

@fabioms

Inscreva-se agora