El software ETL (extract, transform, load) son muy útiles para "refinar" datos, es decir poder tomar datos de una fuente determinada y normalizarlos para poder ser cargados en otro sistema.
Existen distintos programas, varios pagos, pero algunos gratuitos y código abierto.
La utilidad de estos programas son muy diversas, desde la interoperabilidad desde distintos sistemas, la utilización en análisis de datos, el uso en big data y otro tipos de soluciones.
El primer programa es OpenRefine el mismo en su web cuenta con distintas guiás y documentación. Es licencia BSD y cuenta con más de 130 contribuidores en Github.
El segundo es Talend Data Preparation el mismo es un programa específico del Talend OpenStudio bajo licencia Apache y también se puede encontrar el código en su cuenta de Github.
Estos programas pueden ser buenos complementos a Tabula, para extraer datos en tablas de archivos en formato PDFs.
El uso de estos programas es un poco complejo si no se cuenta con conocimientos previos.
No hay comentarios:
Publicar un comentario
Compartí tu comentario, es una forma de agradecer para que se sigan publicando más entradas. Se admiten mensajes anónimos.