Free cookie consent management tool by TermsFeed Policy Generator
  • Azure Databricks Vídeo
  •    40 visualizações da página
  •   968 visualizações do vídeo
  • 2024, novembro 25, segunda

#088 Como Combinar Valores de Tabelas no Azure Databricks

Utilizaremos a integração do Azure Blob Storage com o Azure Databricks para ler arquivos em formato CSV e combina-los em um mesmo conjunto de dados

Iremos conhecer as tecnicas:

1. Instalar pacote Python para acessar o Azure Blob Storage (PIP, INSTALL):

  • Exemplo de instalação do pacote azure-storage-blob:
    !pip install azure-storage-blob
    

2. Identificar se o pacote Python é de fonte confiável (PYTHON PACKAGE INDEX):

  • Ao usar o PIP para instalar pacotes, você está utilizando o Python Package Index (PyPI), que é uma fonte confiável e padrão para pacotes Python.

3. Importar pacotes Python (FROM, IMPORT, AS):

  • Exemplo de importação de pacotes:
    from azure.storage.blob import BlobServiceClient
    import pandas as pd
    

4. Obter Conta de Armazenamento e Chave de Acesso (STORAGE ACCOUNT, ACCESS KEY):

  • Substitua 'sua_conta' e 'sua_chave' pelos valores reais da sua conta e chave de acesso.
    storage_account = 'sua_conta'
    storage_key = 'sua_chave'
    

5. Definir configuração Spark para acesso ao Azure Blob Storage (SPARK, CONF, SET):

   spark.conf.set(
       'fs.azure.account.key.' + storage_account + '.blob.core.windows.net',
       storage_key
   )

6. Fazer upload de arquivo para o Azure Blob Storage:

  • Use o Azure Databricks UI ou comandos do Azure Databricks para carregar arquivos.

7. Ler arquivo em formato CSV com Spark (READ, FORMAT, CSV, LOAD, INFERSCHEMA, HEADER, DELIMITER, ENCODING):

   df = spark.read.format('csv').option('header', 'true').load('dbfs:/mnt/seu_diretorio/seu_arquivo.csv')

8. Converter conjunto de dados Spark para Pandas (TOPANDAS):

   pandas_df = df.toPandas()

9. Visualizar quantidade de registros, as colunas e os tipos de dados (INFO, RANGE INDEX):

   print(pandas_df.info())
   print(pandas_df.describe())

10. Combinar os conjuntos de dados (DATAFRAME, APPEND):

   df_combined = df1.union(df2)  # Ou use o método 'join' dependendo da necessidade.

11. Visualizar dados agrupados por contagem, soma e média (GROUP BY):

   grouped_data = pandas_df.groupby('coluna').agg({'outra_coluna': ['count', 'sum', 'mean']})

12. Obter sumário estatístico das colunas contendo valores numéricos (DESCRIBE):

   stats_summary = pandas_df.describe()

13. Transpor colunas em linhas (TRANSPOSE):

   transposed_df = pandas_df.transpose()

Esses exemplos demonstram como realizar várias operações usando Azure Databricks, Python e Azure Blob Storage. Certifique-se de adaptar os códigos conforme necessário para o seu ambiente e requisitos específicos.

Este contéudo contém
  • Conteúdo Vídeo
  • Idioma Português
  • Duração 10m 43s
  • Legenda Sim

  • Tempo de leitura 1 min 42 seg

avatar
Fabio Santos

Cientista de Dados e Consultor de Soluções Digitais e Analíticas


  • Compartilhe

Youtube Channel

@fabioms

Inscreva-se agora