Azure Synapse Analytics Vídeo
13 visualizações da página
1032 visualizações do vídeo
2024, novembro 04, segunda

#074 Como Fazer Web Scraping no Azure Synapse Analytics

Apresentamos nesse video como utilizar a técnica de Web Scraping para extrair dados de páginas da internet utilizando o Python no Azure Synapse Analytics.

Iremos conhecer as técnicas:

1. Utilizar notebook com instância Apache Spark anexado e linguagem de programação Python (ATTACH TO, LANGUAGE, PYSPARK):

No Azure Synapse Analytics, você pode criar notebooks usando a instância Apache Spark e a linguagem Python. O comando ATTACH TO é usado para conectar o notebook à instância Spark, e a linguagem é definida como Python com LANGUAGE.
```
-- Comando para anexar ao Spark em Python
%pyspark
```

2. Visualizar os recursos associados à instância Apache Spark (CONFIGURE SESSION):

Para visualizar e configurar os recursos associados à instância Spark, você pode usar comandos como CONFIGURE SESSION. Isso permite definir configurações específicas da sessão Spark.
```
-- Configurar recursos da sessão Spark
spark.conf.set("spark.some.config.option", "config-value")
```

3. Identificar os pacotes instalados da instância Apache Spark (PKG_RESOURCES, WORKING_SET, PRINT):

Você pode identificar os pacotes Python instalados na instância Spark usando bibliotecas como pkg_resources e working_set.
```
-- Identificar pacotes instalados
import pkg_resources
for package in pkg_resources.working_set:
  print(package)
```

4. Importar pacotes Python (PANDAS, REQUESTS, BEAUTIFULSOUP):

Importar bibliotecas Python necessárias para manipulação de dados, requisições web e scraping.
```
import pandas as pd
import requests
from bs4 import BeautifulSoup
```

5. Obter conteúdo de página da internet (REQUESTS, HTML CODE, ELEMENTS, TABLES, ROWS, COLUMNS):

Use bibliotecas como requests e BeautifulSoup para obter o conteúdo de uma página web e extrair informações.
```
url = 'https://example.com'
response = requests.get(url)
html_code = response.text
```

6. Converter elementos do código HTML em lista Array (BEAUTIFULSOUP, HTML5LIB):

Use o BeautifulSoup para analisar o código HTML e extrair dados.

soup = BeautifulSoup(html_code, 'html5lib')
tables = soup.find_all('table')

7. Interagir e identificar elementos na lista Array (FIND_ALL, TABLE, FOR, ENUMERATE):

Iterar sobre elementos em uma lista e extrair informações específicas.

for i, table in enumerate(tables):
  print(f"Table {i + 1}:")
  rows = table.find_all('tr')
  for row in rows:
      columns = row.find_all('td')
      for col in columns:
          print(col.text)

8. Criar Dataframe (PANDAS, COLUMNS):

Use a biblioteca Pandas para criar um DataFrame com os dados extraídos.

data = {'Column1': [value1, value2, ...], 'Column2': [value1, value2, ...]}
df = pd.DataFrame(data, columns=['Column1', 'Column2'])

9. Adicionar registros ao Dataframe (APPEND):

Adicione novos registros ao DataFrame conforme necessário.

new_data = {'Column1': [new_value1], 'Column2': [new_value2]}
df = df.append(pd.DataFrame(new_data), ignore_index=True)

10. Visualizar os dados existentes no Dataframe:

- Visualize os dados do DataFrame.

   print(df)

11. Salvar os registros do Dataframe em arquivo no formato Parquet (PANDAS, TO_PARQUET, AZURE DATA LAKE STORAGE):

- Salve os registros do DataFrame em um arquivo Parquet.

   df.to_parquet('output.parquet')
   # Upload para o Azure Data Lake Storage

12. Consultar os registros em script SQL:

- Execute consultas SQL no Azure Synapse Analytics para analisar ou manipular os dados.

   -- Consulta SQL
   spark.sql("SELECT * FROM my_table").show()

Este contéudo contém

Conteúdo Vídeo
Idioma Português
Duração 10m 39s
Legenda Sim
Tempo de leitura 2 min 29 seg

Fabio Santos

Cientista de Dados e Consultor de Soluções Digitais e Analíticas

Compartilhe

Youtube Channel

@fabioms

#074 Como Fazer Web Scraping no Azure Synapse Analytics

Iremos conhecer as técnicas:

Este contéudo contém

Fabio Santos

Youtube Channel

Você também pode gostar

#098 Como executar Pipeline em Loop no Azure Data Factory

Ler Dados em Formato JSON no Azure SQL