Pentaho Data Integration

(1 valoración de cliente)

Objetivo

El objetivo de este curso «Pentaho Data Integration» es que los alumnos adquieran conocimientos sobre la herramienta de Integración de Datos Open Source, PDI y su ecosistema y gestionar el workflow de múltiples Transformations y Jobs.

¿A quién va dirigido?

Este curso va dirigido a todas las personas con conocimientos medios en Pentaho y con la necesidad de adquirir conocimientos del trabajo que se lleva a cabo con Pentaho Data Integration, el entorno de desarrollo del mismo y su diseño.

¿Qué aprenderás?

Con este curso aprenderás a utilizar Pentaho Data Integration (PDI) mediante ejemplos y ejercicios, y de forma gradual verás cada una de las opciones de Spoon. También podrás ver los steps más utilizados en los Jobs/Transformations y cómo cargar y actualizar un DW. Ejecutarás las soluciones desde líneas de comandos y finalmente podrás crear Jobs/Transformations altamente parametrizables y adaptados a nuestro contexto.

320,00

Información adicional

Duración

230 horas

Modalidad

Online

Temas

24

Descuentos

20% Antiguos alumnos y desempleados

Profesor

Darío Bernabeu
Experto en Pentaho
Profesor de Pentaho, experto en soluciones OSBI, Bases de Datos y Tecnologías Web.

Más información

Descripción

  • Características
  • Definición y uso de integración de datos
  • Licencia
  • Ejemplificación de tareas de integración de datos
  • Descripción de requerimientos básicos
  • Configuración de variables de entorno
  • Startup de PDI: Configuración de variables de entorno | Descarga | Instalación | Configuración de Driver JDBC de MySQL
  • Scripts de ejecución de Spoon
  • Layout de Spoon: Principal | Tabs | Panel Design | Panel View | Accesos rápidos
  • Tipos y utilización de Repositorio: Conexión con Repositorio de Pentaho BA | Repositorio en Base de Datos | Repositorio en sistema de archivos | Opción Repository Manager | Metadata
  • Principales opciones de la GUI de Spoon: General | Apariencia
  • Características y diferencias de Transformations y Jobs
  • Práctico: creación de Transformation que genera valores aleatorios
  • Descripción de las características, funcionamiento y comportamiento de las Transformations
  • Descripción del Panel Execute, que se despliega antes de ejecutar las Transformations/Jobs: Environment Type | Options |
  • Log Level | Parameters | Variables
  • Descripción y ejemplificación del Panel Execution Results
  • Descripción y análisis de las opciones más importantes de sus Tabs:
    • Tab Execution History
    • Tab Botón SQL
    • Tab Logging
    • Tab Step Metrics
    • Tab Performance Graph
    • Tab Metrics
    • Tab Preview data
  • Práctico: creación de Transformation que realiza cálculos lógicos y matemáticos
  • Práctico: creación de Transformation que analiza los valores del flujo de datos y bifurca el flujo en dos sentidos diferentes; en el primer sentido realizará cálculos y exportará los resultados; en el segundo caso irá a un Step de control
  • Práctico: creación de Transformation que obtiene datos de un archivo CSV, los formatea, ordena, concatena y exporta en otro formato
  • Descripción y uso de las Variables de Entorno
  • Ejemplos y notación de las Variables de Entorno
  • Descripción y uso de los Parámetros
  • Modos de creación de Parámetros
  • Descripción, definición y uso de Argumentos
  • Descripción y uso de la opción Preview
  • Práctico: creación de Transformación cuyos valores obtenidos dependa de los Parámetros asignados en la ejecución
  • Práctico: creación de Transformación que obtenga valores de Argumentos, ejecute una función JavaScript y genere un documento HTML
  • Descripción, aplicación y ejemplos de RegEx
  • Documentación y patrones más utilizados de las RegEx
  • Aplicación de RegEx en PDI
  • Práctico: creación de Transformation que obtenga los nombres de las librerías presentes en PDI y que mediante RegEx separe sintácticamente su nombre, extensión y versión
  • Descripción y documentación de JS
  • Aplicación de JS en PDI
  • Descripción, ejemplificación y aplicación avanzada de Step Modified Java Script Value:
    • Transform Scripts
    • Transform Constants: SKIP | ERROR | CONTINUE
    • Transform Functions
    • Input/Output Fields
    • Opciones: Position | Compatibility mode | Optimization level
    • Configuración de la Grilla Fields para obtener dataset de salida
    • Añadir, modificar y configurar distintos tipos de Script: Transform | Start | End
  • Práctico: creación de Transformation que obtenga página HTML y realice Web Scrapping utilizando RegEx y JS
  • Práctico: creación de Transfomation que realice las siguientes tareas: análisis, distribución, mapeo, clasificación, aplicación de rangos, aplicación de secuencia condicionada, conversiones
  • Manejo del Dataflow:
    • Unión básica de Datasets
    • Unión de Datasets con diferente Metadata
    • Unión de Datasets estableciendo condición de relación
    • Unión de Datasets de forma secuencial
    • Dividir Dataset entre diversos Steps
    • Compartir Dataset completo
    • Compartir Dataset de forma distributiva
  • Práctico: creación de Transformation que realice las siguientes tareas; convertir de filas a columnas, convertir de columnas a filas, unir Datasets, mapeo y distribución de Datasets, aplicación de fórmulas avanzadas, compartir Dataset
  • Descripción, uso, ejemplos
  • Administración de Variables Globales
  • Práctico: creación de Transformation que realice las siguientes tareas: utilizar Variables de Entorno para establecer URL y nombres de archivos; trabajar con datos en formato XML; convertir filas en columnas; comparar dos flujos de datos por aproximación utilizando algoritmo Levenshtein; obtener valores mínimos y máximos; trabajar con datos JSON
  • Descripción y administración de Hops de Transformations y Jobs
  • Configuración avanzada de Hops de Transformations: Habilitar/Deshabilitar | Cambiar dirección | Condición | Borrar | Bulk Change
  • Configuración avanzada de Hops de Jobs y análisis de Status: Incondicional | Exito | Fracaso | Habilitar/Deshabilitar
  • Descripción de Notas en Transformations/Jobs
  • Descripción de las opciones de Grilla
  • Descripción y tipos de Objetos Compartidos
  • Administración, ejemplificación y utilización de Objetos Compartidos
  • Configuración de Metadata de Objetos Compartidos
  • Práctico: creación de Transformation que realice las siguientes tareas; obtener diferentes archivos de salida dependiendo de condiciones establecidas en el flujo de datos; comparar flujos de datos identificando elementos nuevos, eliminados y modificados; utilizar Variables de Entorno y RegEx
  • Descripción, características y principales usos
  • Comportamiento y modo de funcionamiento de los Jobs
  • Configuración para ejecución de Steps en paralelo
  • Configuración para ejecución de Transformations por cada fila analizada del Dataset
  • Análisis y explicación de Ruta de Ejecución de los Steps de Jobs
  • Práctico: creación de un Job que realice las siguientes tareas; controle el workflow de ejecución de dos Transformations; evalúe la salida de status de los diferentes Steps
  • Práctico: creación de un Job que realice las siguientes tareas; ejecutar una Transformation que genere un Dataset; guardar el Dataset en la lista Result rows; ejecutar una segunda Transformation que obtenga el Dataset de la lista Result rows; configurar salidas de log y analizar los resultados
  • Práctico: creación de Transformations y Jobs para ejemplificar las diferentes utilizaciones de Result Filenames
  • Descripción, uso y ejemplificación de Result Rows
  • Descripción, uso y ejemplificación de Result Filenames
  • Descripción, uso, alcance y ejemplificación de Variables On The Fly
  • Ejemplificación, uso y configuración avanzada de envío de e-mails
  • Utilización de diferentes protocolos: POP3 | IMAP | MBOX
  • Práctico: creación de Transformations y Jobs que realicen las siguientes tareas; obtener de un archivo CSV una lista de URLs web con los discos de artistas de rock; obtener el documento HTML de cada URL web; filtrar de cada documento HTML la sección dedicada a la lista de canciones de cada disco; generar un archivo CSV por cada disco con la información de sus respectivas canciones.
  • Práctico: creación de un Job que realice las siguientes tareas: utilizar Variables de Entorno y RegEx para obtener una lista de archivos; validar direcciones de e-mail; enviar e-mail que contenga como adjuntos los archivos obtenidos
  • Descripción de los principales Steps de Validación en Transformations y Jobs
  • Presentación y restauración de Bases de Datos para realización de práctico
  • MySQL:
    • Definición y características
    • Community Server VS Enterprise Edition
    • MySQL Workbench: Características | Instalación | Layout
    • Creación de Nueva Instancia
    • Explicación de las principales opciones de la Sección Administrativa: Server Status | Client Connections | Users and Privileges | Status and System Variables | Data Export | Data Import/Restore | Startup/Shutdown | Server Logs | Option File
  • Explicación de las principales opciones de la Sección SQL: Panel Schemas | Tab Info | Snippets | Log Output | SQL Canvas | Tabs | Accesos rápidos
  • Descripción, uso y realización de acciones avanzadas sobre Bases de Datos:
    • Obtener Dataset
    • Insertar registros
    • Actualizar registros
    • Borrar registros
    • Añadir columna
    • Ejecutar Script SQL
  • Utilización y configuración avanzada de Error handling
  • Definición y utilización de opción Clear Cache Database
  • Práctico: creación de Job que realice múltiples tipos de acciones sobre Bases de Datos
  • Descripción de principales Steps para trabajar con Bases de Datos
  • Creación de Transformation para trabajar con Slowly Changing Dimension (SCD) Tipo 1
  • Creación de Transformation para trabajar con Slowly Changing Dimension (SCD) Tipo 2
  • Descripción de las principales herramientas PDI: Spoon | Pan | Kitchen | Carte
  • Opciones avanzadas ejecución de Transformations o Jobs por líneas de comandos
    • Parámetros
    • Argumentos
    • Registro Log
  • Descripción, ejemplificación y uso de Calendarización de ejecución de Transformations y Jobs
  • Calendarización utilizando Cron
  • Calendarización utilizando Task Scheduler
  • Descripción y características del Marketplace de PDI
  • Instalación de plugins: Weka, DataCleaner
  • Utilización de Transformation como Datasource para Dashboards (CDE)
  • Utilización de Transformation como Datasource para Reporting (PRD)
  • Descripción y características de Pentaho Report Designer (PRD)
  • Configuración y ejecución de reportes PRD en Transformation PDI
  • Práctico: creación de una Transformation que realice las siguientes tareas: exportar reporte en formato pdf utilizando Parámetros, JS, RegEx y Variables de Entorno; envío de reporte como archivo adjunto en un e-mail
  • Transform | Split Fields
  • Transform | Value Mapper
  • Transform | Number range
  • Transform | Add value fields changing sequence
  • Transform | String operations
  • Transform | Row flattener
  • Transform | Row Normaliser
  • Transform | Add constants
  • Transform | Calculator
  • Transform | Sort rows
  • Transform | Concat Fields
  • Transform | Add sequence
  • Transform | Select values
  • Transform | Replace in string
  • Transform | Split Fields
  • Transform | Value Mapper
  • Transform | Number range
  • Transform | Add value fields changing sequence
  • Transform | String operations
  • Transform | Row flattener
  • Transform | Row Normaliser
  • Flow | Append streams
  • Flow | Switch / Case
  • Flow | Filter rows
  • Flow | Java Filter
  • Flow | Dummy
  • Flow | Append streams
  • Flow | Switch / Case
  • Joins | Join Rows
  • Job | Copy rows to result
  • Job | Get rows from result
  • Job | Set files in result
  • Job | Get files from result
  • Job | Set Variables
  • Job | Get Variables
  • Utility | Write to log
  • Utility | Mail
  • Utility | Mail validator
  • Utility | If field value is null
  • Input | Email messages input
  • Input | Table input
  • Input | Generate Rows
  • Input | Generate random value
  • Input | Data Grid
  • Input | CSV file input
  • Input | Fixed file input
  • Input | Get System Info
  • Input | GZIP CSV Input
  • Input | Get File Names
  • Lookup | Table exists
  • Lookup | Web Services Lookup
  • Lookup | File exists
  • Lookup | HTTP Client
  • Lookup | Stream lookup
  • Lookup | Database lookup
  • Lookup | Database join
  • Validation | Data Validator
  • Output | Table output
  • Output | Update
  • Output | Insert / Update
  • Output | Delete
  • Output | Synchronize after merge
  • Output | Pentaho Reporting Output
  • Output | Text file output
  • Output | Microsoft Excel Output
  • Data Warehouse | Combination lookup/update
  • Data Warehouse | Dimension lookup/update
  • Scripting | Execute SQL script
  • Scripting | Execute row SQL script
  • Scripting | Formula
  • Scripting | Modified Java Script Value
  • General | START
  • General | Transformation
  • General | Success
  • General | Job
  • Conditions | File Exists
  • Conditions | Checks if files exist
  • Conditions | Check Db connections
  • Conditions | Table exists
  • Conditions | Check webservice avaliability
  • Conditions | Simple evaluation
  • Conditions | Columns exist in a table
  • Utility | Abort job
  • File management | Add filenames to result
  • Mail | Mail validator
  • Mail | Mail
  • Scripting | SQL

Información adicional

Duración

230 horas

Modalidad

Online

Temas

24

Descuentos

20% Antiguos alumnos y desempleados

1 valoración en Pentaho Data Integration

  1. carlos

    Excelente curso con explicaciones claras y prácticas.Muchos ejemplos didácticos.

Añadir una valoración