Free cookie consent management tool by TermsFeed Policy Generator
  •  video
  •    13 visitas a la página
  •   1104 visualizaciones de vídeo
  • 2024, noviembre 18, lunes

#074 Como Fazer Web Scraping no Azure Synapse Analytics

Apresentamos nesse video como utilizar a técnica de Web Scraping para extrair dados de páginas da internet utilizando o Python no Azure Synapse Analytics.

Iremos conhecer as técnicas:

1\. Utilizar notebook com instância Apache Spark anexado e linguagem de programação Python (ATTACH TO, LANGUAGE, PYSPARK):

  • No Azure Synapse Analytics, você pode criar notebooks usando a instância Apache Spark e a linguagem Python. O comando ATTACH TO é usado para conectar o notebook à instância Spark, e a linguagem é definida como Python com LANGUAGE.

-- Comando para anexar ao Spark em Python

%pyspark

2\. Visualizar os recursos associados à instância Apache Spark (CONFIGURE SESSION):

  • Para visualizar e configurar os recursos associados à instância Spark, você pode usar comandos como CONFIGURE SESSION. Isso permite definir configurações específicas da sessão Spark.

-- Configurar recursos da sessão Spark

spark.conf.set("spark.some.config.option", "config-value")

3\. Identificar os pacotes instalados da instância Apache Spark (PKG\_RESOURCES, WORKING\_SET, PRINT):

  • Você pode identificar os pacotes Python instalados na instância Spark usando bibliotecas como pkg\_resources e working\_set.

-- Identificar pacotes instalados

import pkg_resources

for package in pkg_resources.working_set:

print(package)

4\. Importar pacotes Python (PANDAS, REQUESTS, BEAUTIFULSOUP):

  • Importar bibliotecas Python necessárias para manipulação de dados, requisições web e scraping.

import pandas as pd

import requests

from bs4 import BeautifulSoup

5\. Obter conteúdo de página da internet (REQUESTS, HTML CODE, ELEMENTS, TABLES, ROWS, COLUMNS):

  • Use bibliotecas como requests e BeautifulSoup para obter o conteúdo de uma página web e extrair informações.

url = 'https://example.com'

response = requests.get(url)

html_code = response.text

6\. Converter elementos do código HTML em lista Array (BEAUTIFULSOUP, HTML5LIB):

  • Use o BeautifulSoup para analisar o código HTML e extrair dados.

soup = BeautifulSoup(html_code, 'html5lib')

tables = soup.find_all('table')

**7\. Interagir e identificar elementos

na lista Array (FIND\_ALL, TABLE, FOR, ENUMERATE):**

  • Iterar sobre elementos em uma lista e extrair informações específicas.

for i, table in enumerate(tables):

print(f"Table {i + 1}:")

rows = table.find_all('tr')

for row in rows:

columns = row.find_all('td')

for col in columns:

print(col.text)

8\. Criar Dataframe (PANDAS, COLUMNS):

  • Use a biblioteca Pandas para criar um DataFrame com os dados extraídos.

data = {'Column1': [value1, value2, ...], 'Column2': [value1, value2, ...]}

df = pd.DataFrame(data, columns=['Column1', 'Column2'])

9\. Adicionar registros ao Dataframe (APPEND):

  • Adicione novos registros ao DataFrame conforme necessário.

new_data = {'Column1': [new_value1], 'Column2': [new_value2]}

df = df.append(pd.DataFrame(new_data), ignore_index=True)

10\. Visualizar os dados existentes no Dataframe:

  • Visualize os dados do DataFrame.

print(df)

11\. Salvar os registros do Dataframe em arquivo no formato Parquet (PANDAS, TO\_PARQUET, AZURE DATA LAKE STORAGE):

  • Salve os registros do DataFrame em um arquivo Parquet.

df.to_parquet('output.parquet')

Upload para o Azure Data Lake Storage

12\. Consultar os registros em script SQL:

  • Execute consultas SQL no Azure Synapse Analytics para analisar ou manipular os dados.

-- Consulta SQL

spark.sql("SELECT * FROM my_table").show()

Este contenido contiene
  • Conteúdo video
  • Idioma Português
  • Duración 10m 39s
  • Subtítulos Sim

  • Tiempo de leer 2 min 26 seg

avatar
Fabio Santos

Científico de datos y consultor de soluciones digitales y analíticas


  • Compartir

Youtube Channel

@fabioms

Suscríbase ahora