miércoles, abril 08, 2020

Software ETL código abierto

El software ETL (extract, transform, load) son muy útiles para "refinar" datos, es decir poder tomar datos de una fuente determinada y normalizarlos para poder ser cargados en otro sistema.

Existen distintos programas, varios pagos, pero algunos gratuitos y código abierto.

La utilidad de estos programas son muy diversas, desde la interoperabilidad desde distintos sistemas, la utilización en análisis de datos, el uso en big data y otro tipos de soluciones.

El primer programa es OpenRefine el mismo en su web cuenta con distintas guiás y documentación. Es licencia BSD y cuenta con más de 130 contribuidores en Github.

El segundo es Talend Data Preparation el mismo es un programa específico del Talend OpenStudio bajo licencia Apache y también se puede encontrar el código en su cuenta de Github.

Estos programas pueden ser buenos complementos a Tabula, para extraer datos en tablas de archivos en formato PDFs.

El uso de estos programas es un poco complejo si no se cuenta con conocimientos previos.

No hay comentarios:

Publicar un comentario

Compartí tu comentario, es una forma de agradecer para que se sigan publicando más entradas. Se admiten mensajes anónimos.

Recibe las actualizaciones en tu correo