Free cookie consent management tool by TermsFeed Policy Generator

#073 Como criar Apache Spark no Azure Synapse Analytics

Apresentamos nesse vídeo como criar o Apache Spark no Azure Synapse Analytics para aumentar a capacidade de computação em nuvem nas análises dos dados.

Iremos conhecer as técnicas:

1. Definir computação Isolada das análises (ISOLATED COMPUTE):

  • A opção de computação isolada no Azure Synapse Analytics permite executar consultas em uma camada separada e isolada, garantindo recursos dedicados para análises críticas.

2. Definir o tipo de arquitetura e quantidade de processamento da instância principal (NODE SIZE, MEMORY OPTIMIZED, HARDWARE ACCELERATED):

  • Escolher o tamanho e a arquitetura da instância principal determina a quantidade de recursos computacionais disponíveis para consultas e operações no Synapse Analytics. Opções incluem otimização de memória e aceleração de hardware.

3. Definir dimensionamento automático (AUTOSCALE):

  • O autoscale ajusta dinamicamente o número de unidades de processamento (Dedicated SQL Pools) com base na carga de trabalho, proporcionando flexibilidade e otimização de custos.

4. Definir a quantidade de nós (EXECUTORS):

  • Ao configurar a quantidade de nós (executors) em uma instância Apache Spark, você determina a capacidade de processamento distribuído para cargas de trabalho de big data.

5. Definir pausar automaticamente (AUTOMATIC PAUSING):

  • A capacidade de pausar automaticamente a instância quando não está em uso ajuda a otimizar custos, interrompendo a cobrança quando não são necessários recursos.

6. Definir versão da instância Apache Spark (VERSION, PREVIEW):

  • Especificar a versão do Apache Spark ao criar uma instância para garantir compatibilidade e acesso aos recursos mais recentes.

7. Habilitar a instalação de pacotes em nível de sessão (ALLOW SESSION LEVEL PACKAGES):

  • Permite instalar pacotes Python em nível de sessão para personalizar o ambiente de execução no Spark.

8. Definir etiquetas (TAGS):

  • Adicionar etiquetas ajuda na organização e no gerenciamento de recursos, permitindo classificar e identificar instâncias de maneira mais eficiente.

9. Visualizar e alterar a configuração da instância criada (SCALE SETTINGS):

  • Acesso às configurações de dimensionamento, onde você pode visualizar e alterar a configuração da instância.

10. Criar novo notebook anexando à instância Apache Spark (ATTACH TO):

  • Criação de um novo notebook no ambiente do Apache Spark, que permite a execução de códigos Spark interativos.

11. Definir a linguagem de programação do notebook (LANGUAGE):

  • Especificar a linguagem de programação do notebook, como Scala, Python ou SQL, dependendo da preferência e da tarefa.

12. Criar células de código e de texto formatado (CODE, MARKDOWN):

  • Organização do conteúdo do notebook em células, onde as células de código contêm instruções executáveis e as células Markdown permitem a formatação de texto.

13. Executar notebook (RUN ALL, SESSION START):

  • Iniciar a execução de todas as células do notebook ou começar uma nova sessão para executar códigos Spark.

14. Monitorar instância Apache Spark (ALLOCATED vCores, Memory, ACTIVE APPLICATIONS):

  • Acompanhamento dos recursos alocados, uso de memória e aplicações ativas na instância Spark.

15. Parar a execução da sessão (STOP SESSION):

  • Interromper a execução da sessão atual no ambiente Apache Spark.

Essas etapas proporcionam uma visão geral de como configurar e utilizar o Azure Synapse Analytics com instância Apache Spark para análise de big data. Certifique-se de consultar a documentação oficial para obter detalhes específicos e atualizações.

Este contéudo contém
  • Conteúdo Vídeo
  • Idioma Português
  • Duração 8m 48s
  • Legenda Sim

  • Tempo de leitura 2 min 44 seg

avatar
Fabio Santos

Cientista de Dados e Consultor de Soluções Digitais e Analíticas


  • Compartilhe

Youtube Channel

@fabioms

Inscreva-se agora