Free cookie consent management tool by TermsFeed Policy Generator

How to Combine Table Values in Azure Databricks

We'll use Azure Blob Storage's integration with Azure Databricks to read CSV files and combine them into a single dataset

Iremos conhecer as tecnicas:

1. Instalar pacote Python para acessar o Azure Blob Storage (PIP, INSTALL):

  • Exemplo de instalação do pacote azure-storage-blob:
    !pip install azure-storage-blob
    

2. Identificar se o pacote Python é de fonte confiável (PYTHON PACKAGE INDEX):

  • Ao usar o PIP para instalar pacotes, você está utilizando o Python Package Index (PyPI), que é uma fonte confiável e padrão para pacotes Python.

3. Importar pacotes Python (FROM, IMPORT, AS):

  • Exemplo de importação de pacotes:
    from azure.storage.blob import BlobServiceClient
    import pandas as pd
    

4. Obter Conta de Armazenamento e Chave de Acesso (STORAGE ACCOUNT, ACCESS KEY):

  • Substitua 'sua_conta' e 'sua_chave' pelos valores reais da sua conta e chave de acesso.
    storage_account = 'sua_conta'
    storage_key = 'sua_chave'
    

5. Definir configuração Spark para acesso ao Azure Blob Storage (SPARK, CONF, SET):

   spark.conf.set(
       'fs.azure.account.key.' + storage_account + '.blob.core.windows.net',
       storage_key
   )

6. Fazer upload de arquivo para o Azure Blob Storage:

  • Use o Azure Databricks UI ou comandos do Azure Databricks para carregar arquivos.

7. Ler arquivo em formato CSV com Spark (READ, FORMAT, CSV, LOAD, INFERSCHEMA, HEADER, DELIMITER, ENCODING):

   df = spark.read.format('csv').option('header', 'true').load('dbfs:/mnt/seu_diretorio/seu_arquivo.csv')

8. Converter conjunto de dados Spark para Pandas (TOPANDAS):

   pandas_df = df.toPandas()

9. Visualizar quantidade de registros, as colunas e os tipos de dados (INFO, RANGE INDEX):

   print(pandas_df.info())
   print(pandas_df.describe())

10. Combinar os conjuntos de dados (DATAFRAME, APPEND):

   df_combined = df1.union(df2)  # Ou use o método 'join' dependendo da necessidade.

11. Visualizar dados agrupados por contagem, soma e média (GROUP BY):

   grouped_data = pandas_df.groupby('coluna').agg({'outra_coluna': ['count', 'sum', 'mean']})

12. Obter sumário estatístico das colunas contendo valores numéricos (DESCRIBE):

   stats_summary = pandas_df.describe()

13. Transpor colunas em linhas (TRANSPOSE):

   transposed_df = pandas_df.transpose()

Esses exemplos demonstram como realizar várias operações usando Azure Databricks, Python e Azure Blob Storage. Certifique-se de adaptar os códigos conforme necessário para o seu ambiente e requisitos específicos.

This content contains
  • Content Video
  • Language Portuguese
  • Duration 10m 43s
  • Subtitles Sim

  • Reading time 1 min 42 seg

avatar
Fabio Santos

Data Scientist and Consultant for Digital and Analytics Solutions


  • Share

Youtube Channel

@fabioms

Subscribe now