Free cookie consent management tool by TermsFeed Policy Generator
  •  Vídeo
  •    3 visualizações da página
  •   1246 visualizações do vídeo
  • 2025, abril 09, quarta

#073 Como criar Apache Spark no Azure Synapse Analytics

Apresentamos nesse vídeo como criar o Apache Spark no Azure Synapse Analytics para aumentar a capacidade de computação em nuvem nas análises dos dados.

Iremos conhecer as técnicas:

1\. Definir computação Isolada das análises (ISOLATED COMPUTE):

  • A opção de computação isolada no Azure Synapse Analytics permite executar consultas em uma camada separada e isolada, garantindo recursos dedicados para análises críticas.

2\. Definir o tipo de arquitetura e quantidade de processamento da instância principal (NODE SIZE, MEMORY OPTIMIZED, HARDWARE ACCELERATED):

  • Escolher o tamanho e a arquitetura da instância principal determina a quantidade de recursos computacionais disponíveis para consultas e operações no Synapse Analytics. Opções incluem otimização de memória e aceleração de hardware.

3\. Definir dimensionamento automático (AUTOSCALE):

  • O autoscale ajusta dinamicamente o número de unidades de processamento (Dedicated SQL Pools) com base na carga de trabalho, proporcionando flexibilidade e otimização de custos.

4\. Definir a quantidade de nós (EXECUTORS):

  • Ao configurar a quantidade de nós (executors) em uma instância Apache Spark, você determina a capacidade de processamento distribuído para cargas de trabalho de big data.

5\. Definir pausar automaticamente (AUTOMATIC PAUSING):

  • A capacidade de pausar automaticamente a instância quando não está em uso ajuda a otimizar custos, interrompendo a cobrança quando não são necessários recursos.

6\. Definir versão da instância Apache Spark (VERSION, PREVIEW):

  • Especificar a versão do Apache Spark ao criar uma instância para garantir compatibilidade e acesso aos recursos mais recentes.

7\. Habilitar a instalação de pacotes em nível de sessão (ALLOW SESSION LEVEL PACKAGES):

  • Permite instalar pacotes Python em nível de sessão para personalizar o ambiente de execução no Spark.

8\. Definir etiquetas (TAGS):

  • Adicionar etiquetas ajuda na organização e no gerenciamento de recursos, permitindo classificar e identificar instâncias de maneira mais eficiente.

**9\. Visualizar e alterar a configuração da instância criada (SCALE SET

TINGS):**

  • Acesso às configurações de dimensionamento, onde você pode visualizar e alterar a configuração da instância.

10\. Criar novo notebook anexando à instância Apache Spark (ATTACH TO):

  • Criação de um novo notebook no ambiente do Apache Spark, que permite a execução de códigos Spark interativos.

11\. Definir a linguagem de programação do notebook (LANGUAGE):

  • Especificar a linguagem de programação do notebook, como Scala, Python ou SQL, dependendo da preferência e da tarefa.

12\. Criar células de código e de texto formatado (CODE, MARKDOWN):

  • Organização do conteúdo do notebook em células, onde as células de código contêm instruções executáveis e as células Markdown permitem a formatação de texto.

13\. Executar notebook (RUN ALL, SESSION START):

  • Iniciar a execução de todas as células do notebook ou começar uma nova sessão para executar códigos Spark.

14\. Monitorar instância Apache Spark (ALLOCATED vCores, Memory, ACTIVE APPLICATIONS):

  • Acompanhamento dos recursos alocados, uso de memória e aplicações ativas na instância Spark.

15\. Parar a execução da sessão (STOP SESSION):

  • Interromper a execução da sessão atual no ambiente Apache Spark.

Essas etapas proporcionam uma visão geral de como configurar e utilizar o Azure Synapse Analytics com instância Apache Spark para análise de big data. Certifique-se de consultar a documentação oficial para obter detalhes específicos e atualizações.

Este contéudo contém
  • Conteúdo Vídeo
  • Idioma Português
  • Duração 8m 48s
  • Legenda Sim

  • Tempo de leitura 2 min 44 seg

avatar
Fabio Santos

Cientista de Dados e Consultor de Soluções Digitais e Analíticas


  • Compartilhe

Youtube Channel

@fabioms

Inscreva-se agora