Iremos conhecer as técnicas:
1. Converter arquivo CSV para PARQUET (Python, Azure Data Studio):
- Utilize ferramentas como Python ou Azure Data Studio para converter arquivos CSV para o formato PARQUET, um formato de armazenamento eficiente para big data.
2. Upload de arquivos para o Azure Data Lake (Azure Storage Explorer):
- Utilize o Azure Storage Explorer para carregar os arquivos convertidos para o Azure Data Lake, um repositório de armazenamento escalável.
3. Criar Lake Database na estrutura do Azure Synapse Analytics (Lake Database):
- No Azure Synapse Analytics, crie um Lake Database para organizar e gerenciar os dados armazenados no Azure Data Lake.
4. Adicionar Tabela com os dados vinculados a arquivos PARQUET (Linked Service, Data Lake, Parquet):
- Adicione uma tabela ao Lake Database, vinculando-a aos arquivos PARQUET no Azure Data Lake por meio de um Linked Service.
5. Criar Script SQL de consulta da tabela (SELECT, TOP):
6. Alterar o Tipo de Dados para as colunas (Columns, Data Type):
- Se necessário, ajuste os tipos de dados das colunas da tabela de acordo com os requisitos da análise.
7. Criar relacionamento entre as tabelas (Relationships, FROM TABLE, FOREIGN KEY):
- Se houver várias tabelas no Lake Database, crie relacionamentos entre elas para facilitar a análise.
8. Consumir os dados utilizando o Power BI (Get Data, SQL Serverless, Import):
- No Power BI, conecte-se ao Azure Synapse Analytics, selecione o banco de dados, e importe os dados para criar visualizações.
9. Visualizar Modelo dos dados e relacionamento entre as tabelas (Power BI):
- No Power BI, visualize o modelo de dados criado, examine os relacionamentos entre as tabelas e construa visualizações para análise.
Esses passos descrevem o fluxo geral de ingestão, organização e análise de dados usando o Azure Synapse Analytics, Azure Data Lake, e Power BI. O ponto 5 apresenta um exemplo de código SQL para consulta de dados da tabela.