Azure Data Factory video
13 visitas a la página
1792 visualizaciones de vídeo
2024, noviembre 20, miércoles

#075 Cómo eliminar registros duplicados en Azure Data Factory

Apresentamos nesse vídeo como carregar planilhas eletrônicas do Azure Data Lake Storage removendo os registros duplicados, e configurando o gatilho para executar quando um novo arquivo é criado.

Conoceremos las técnicas:

1. Habilitación

de las funcionalidades en versión preliminar de Azure Data Factory Studio (ACTUALIZACIÓN EN VERSIÓN PRELIMINAR

): al habilitar las funcionalidades en versión preliminar, puede acceder a las características y actualizaciones más recientes de Azure Data Factory Studio y probarlas antes de que estén disponibles con carácter general.

2. Cree una carpeta y cargue archivos en Azure Data Lake Storage Storage

(AZURE STORAGE EXPLORER): Con

Explorador de Azure Storage, puede crear carpetas y cargar archivos en Azure Data Lake Storage, lo que proporciona un almacenamiento eficaz y escalable para los datos.

3. Crear flujo de datos (

DATAFLOW):

los

flujos de datos son estructuras visuales de Azure Data Factory que permiten crear, modificar y administrar procesos de extracción, transformación y carga (ETL) de forma intuitiva.

4. Agregar fuente de datos de origen

(FUENTE, FORMATO EXCEL, ÍNDICE DE HOJA): En

el flujo de datos,

puede agregar una fuente de datos de origen, como un archivo de Excel, especificando el formato y el índice de la hoja de cálculo deseada.

5. Cargue dinámicamente los archivos desde la carpeta

(OPCIONES DE ORIGEN, RUTAS COMODÍN):

para facilitar la dinámica, puede utilizar opciones de origen que admitan rutas comodín para cargar dinámicamente archivos desde una carpeta.

6. Defina la columna para almacenar el archivo asociado al registro

(COLUMN, STORE FILE NAME): Durante

proceso de transformación, puede definir una columna para almacenar el nombre del archivo asociado a cada registro, lo que permite rastrear el origen de los datos.

7. Agregar paso de agregado

(AGGREGATE, GROUP BY

, COUNT):

Al agregar un paso de agregado, puede resumir los valores de los registros en función de criterios específicos, como COUNT en un grupo.

8. Almacene los registros en un archivo DATASET (formato PARQUET):

Al establecer el formato de archivo de destino en Parquet, optimiza la eficiencia del almacenamiento y la legibilidad de los datos.

9. Establecer permisos de acceso a archivos

(DESENMASCARAR, PROPIETARIO, GRUPOS, OTROS):

Puede establecer permisos de acceso a archivos para garantizar la seguridad de los datos especificando máscaras de permisos, propietarios y grupos.

10. Eliminar columna de la asignación (ASIGNACIÓN AUTOMÁTICA, COLUMNAS DE ENTRADA):

Si es necesario, es posible eliminar columnas de la asignación durante la transformación de datos, asegurándose de que solo se incluyan las columnas deseadas en el resultado final.

11. Crear canalización para ejecutar el flujo de datos (PIPELINE, ACTIVIDAD DE FLUJO DE DATOS): Las canalizaciones

se utilizan para orquestar y programar actividades, incluida la ejecución de flujos de datos. La actividad de flujo de datos dentro de una canalización inicia la ejecución del proceso ETL.

12. DESENCADENADOR, EVENTOS DE ALMACENAMIENTO, BLOB CREADO

: puede agregar un desencadenador que responda a eventos de almacenamiento, como la creación de un blob. Esto permite que la canalización se active automáticamente cuando se agregan nuevos datos.

13. Agregar archivo y ver la canalización que se

ejecuta automáticamente (TRIGGER RUNS, PIPELINE RUNS):

Cuando agrega un archivo que cumple con los criterios de activación, la canalización se activará automáticamente. Puede ver la ejecución de la canalización en los registros de ejecución.

Este contenido contiene

Conteúdo video
Idioma Português
Duración 10m 42s
Subtítulos Sim
Tiempo de leer 2 min 41 seg

Fabio Santos

Científico de datos y consultor de soluciones digitales y analíticas

Youtube Channel

@fabioms

También te puede gustar

Como obter perfil dos dados no SQL Server

2023, fevereiro 08, quarta
Vídeo

#040 Como conectar recursos locais no Azure Data Factory

2023, maio 02, terça
Vídeo