Iremos conhecer as técnicas:
1. Definir computação Isolada das análises (ISOLATED COMPUTE):
- A opção de computação isolada no Azure Synapse Analytics permite executar consultas em uma camada separada e isolada, garantindo recursos dedicados para análises críticas.
2. Definir o tipo de arquitetura e quantidade de processamento da instância principal (NODE SIZE, MEMORY OPTIMIZED, HARDWARE ACCELERATED):
- Escolher o tamanho e a arquitetura da instância principal determina a quantidade de recursos computacionais disponíveis para consultas e operações no Synapse Analytics. Opções incluem otimização de memória e aceleração de hardware.
3. Definir dimensionamento automático (AUTOSCALE):
- O autoscale ajusta dinamicamente o número de unidades de processamento (Dedicated SQL Pools) com base na carga de trabalho, proporcionando flexibilidade e otimização de custos.
4. Definir a quantidade de nós (EXECUTORS):
- Ao configurar a quantidade de nós (executors) em uma instância Apache Spark, você determina a capacidade de processamento distribuído para cargas de trabalho de big data.
5. Definir pausar automaticamente (AUTOMATIC PAUSING):
- A capacidade de pausar automaticamente a instância quando não está em uso ajuda a otimizar custos, interrompendo a cobrança quando não são necessários recursos.
6. Definir versão da instância Apache Spark (VERSION, PREVIEW):
- Especificar a versão do Apache Spark ao criar uma instância para garantir compatibilidade e acesso aos recursos mais recentes.
7. Habilitar a instalação de pacotes em nível de sessão (ALLOW SESSION LEVEL PACKAGES):
- Permite instalar pacotes Python em nível de sessão para personalizar o ambiente de execução no Spark.
8. Definir etiquetas (TAGS):
- Adicionar etiquetas ajuda na organização e no gerenciamento de recursos, permitindo classificar e identificar instâncias de maneira mais eficiente.
9. Visualizar e alterar a configuração da instância criada (SCALE SETTINGS):
- Acesso às configurações de dimensionamento, onde você pode visualizar e alterar a configuração da instância.
10. Criar novo notebook anexando à instância Apache Spark (ATTACH TO):
- Criação de um novo notebook no ambiente do Apache Spark, que permite a execução de códigos Spark interativos.
11. Definir a linguagem de programação do notebook (LANGUAGE):
- Especificar a linguagem de programação do notebook, como Scala, Python ou SQL, dependendo da preferência e da tarefa.
12. Criar células de código e de texto formatado (CODE, MARKDOWN):
- Organização do conteúdo do notebook em células, onde as células de código contêm instruções executáveis e as células Markdown permitem a formatação de texto.
13. Executar notebook (RUN ALL, SESSION START):
- Iniciar a execução de todas as células do notebook ou começar uma nova sessão para executar códigos Spark.
14. Monitorar instância Apache Spark (ALLOCATED vCores, Memory, ACTIVE APPLICATIONS):
- Acompanhamento dos recursos alocados, uso de memória e aplicações ativas na instância Spark.
15. Parar a execução da sessão (STOP SESSION):
- Interromper a execução da sessão atual no ambiente Apache Spark.
Essas etapas proporcionam uma visão geral de como configurar e utilizar o Azure Synapse Analytics com instância Apache Spark para análise de big data. Certifique-se de consultar a documentação oficial para obter detalhes específicos e atualizações.