Video
40 page views
1069 video views
2026, January 14, Wednesday

#088 Como Combinar Valores de Tabelas no Azure Databricks

Utilizaremos a integração do Azure Blob Storage com o Azure Databricks para ler arquivos em formato CSV e combina-los em um mesmo conjunto de dados

Iremos conhecer as tecnicas:

1\. Instalar pacote Python para acessar o Azure Blob Storage (PIP, INSTALL):

Exemplo de instalação do pacote azure-storage-blob:

!pip install azure-storage-blob

2\. Identificar se o pacote Python é de fonte confiável (PYTHON PACKAGE INDEX):

Ao usar o PIP para instalar pacotes, você está utilizando o Python Package Index (PyPI), que é uma fonte confiável e padrão para pacotes Python.

3\. Importar pacotes Python (FROM, IMPORT, AS):

Exemplo de importação de pacotes:

from azure.storage.blob import BlobServiceClient

import pandas as pd

4\. Obter Conta de Armazenamento e Chave de Acesso (STORAGE ACCOUNT, ACCESS KEY):

Substitua 'sua\_conta' e 'sua\_chave' pelos valores reais da sua conta e chave de acesso.

storage_account = 'sua_conta'

storage_key = 'sua_chave'

5\. Definir configuração Spark para acesso ao Azure Blob Storage (SPARK, CONF, SET):

spark.conf.set(

'fs.azure.account.key.' + storage_account + '.blob.core.windows.net',

storage_key

)

6\. Fazer upload de arquivo para o Azure Blob Storage:

Use o Azure Databricks UI ou comandos do Azure Databricks para carregar arquivos.

7\. Ler arquivo em formato CSV com Spark (READ, FORMAT, CSV, LOAD, INFERSCHEMA, HEADER, DELIMITER, ENCODING):

df = spark.read.format('csv').option('header', 'true').load('dbfs:/mnt/seu_diretorio/seu_arquivo.csv')

8\. Converter conjunto de dados Spark para Pandas (TOPANDAS):

pandas_df = df.toPandas()

9\. Visualizar quantidade de registros, as colunas e os tipos de dados (INFO, RANGE INDEX):

print(pandas_df.info())

print(pandas_df.describe())

10\. Combinar os conjuntos de dados (DATAFRAME, APPEND):

df_combined = df1.union(df2) # Ou use o método 'join' dependendo da necessidade.

11\. Visualizar dados agrupados por contagem, soma e média (GROUP BY):

grouped_data = pandas_df.groupby('coluna').agg({'outra_coluna': ['count', 'sum', 'mean']})

**12\.

Obter sumário estatístico das colunas contendo valores numéricos (DESCRIBE):**

stats_summary = pandas_df.describe()

13\. Transpor colunas em linhas (TRANSPOSE):

transposed_df = pandas_df.transpose()

Esses exemplos demonstram como realizar várias operações usando Azure Databricks, Python e Azure Blob Storage. Certifique-se de adaptar os códigos conforme necessário para o seu ambiente e requisitos específicos.

This content contains

Content Video
Language Portuguese
Duration 10m 43s
Subtitles Sim
Reading time 1 min 42 seg

Fabio Santos

Data Scientist and Consultant for Digital and Analytics Solutions

Youtube Channel

@fabioms

Criar Banco de Dados Azure SQL no Azure Data Studio

2023, marÃ§o 22, quarta
Vídeo

Como Combinar Valores de Tabelas no Azure Databricks

2023, marÃ§o 07, terÃ§a
Vídeo