¿Cuáles son las 3 principales diferencias entre ELT y ETL?

1 – ¿Qué hay en (una) memoria?

“Si dices la verdad, no tienes que recordar nada”.   – Mark Twain

Cuando se trata de ETL, decir la verdad (o no manipular los datos) es la única manera de NO comprometer la memoria.  Las arquitecturas ETL requieren el uso de la memoria para almacenar y manipular (transformar) los datos que se han extraído, antes de cargarlos en un destino.

Esto tiene el potencial de volverse muy rápido para las transformaciones computacionales y posiblemente muy lento si se utilizan otros datos para enriquecer esta información.

Dependiendo de la naturaleza de la transformación, se pueden consumir grandes cantidades de memoria para soportar los datos que se procesan a través de los “Pipelines” (canales) ETL.

Por el contrario, ELT ofrece algunas capacidades únicas para manipular los datos, pero generalmente requiere que los datos se extraigan y, a menudo, no se modifiquen cuando se cargan en un almacén de datos intermedio, a menudo descrito como un entorno de puesta en escena.

ELT ofrece algunas ventajas a la transformación, ya que se pueden mirar las filas, en total, y las transformaciones (llamadas operaciones basadas en conjuntos) contra grandes cantidades de datos pueden ocurrir de una manera computacionalmente más excelente que “Fila por Fila” como hacemos en ETL.

2 – Ahora llegan: Los datos no estructurados

A medida que el enfoque de datos de muchas empresas comienza a incluir elementos como conversaciones, reacciones, publicaciones sociales y otros flujos de datos poco o nada estructurados.  Es importante entender los patrones de cómo ETL/ELT se utilizan con esta información.  Los datos no estructurados, por lo general, necesitan encontrar un hogar antes de poder ser manipulados.

Este patrón significa que el flujo de información se parece más a ELT que a ETL.  Los datos suelen ser recogidos por un “oyente” y escritos en el almacenamiento (como el almacenamiento BLOB en Azure HD Insight u otro entorno NOSQL).  A partir de ahí, se pueden aprovechar una o más tecnologías para transformar los datos.

La alternativa, que puede ganar fuerza a medida que los procesos ETL basados en la nube escalen de forma diferente y permitan datos más dinámicos a través de los pipelines ETL, dependerá en gran medida de cómo se declaren y utilicen las funciones de las transformaciones con las definiciones lógicas centradas en las filas.

3 – La vida de su lógica

No todas las transformaciones son iguales.  De hecho, algunas son propias de un determinado conjunto de herramientas ETL.  En última instancia, esto significa que pasar de un conjunto de herramientas a otro significa que la lógica no siempre se “porta”.  El resultado final es ofrecer una despedida a la lógica que puede haber sido elaborada de forma desafiante.

ELT proporciona a tu lógica un poco más de vida resistente.

Suponiendo que los datos estén disponibles, la lógica ELT puede funcionar bien y a menudo funciona mejor con grandes volúmenes de datos que requieren manipulaciones complejas.  Estas manipulaciones complejas se convierten en la verdadera “sangre vital” de los datos y, por lo tanto, la ELT, en este sentido, proporciona un poco menos de riesgo contra la reutilización.

Por último: ¿pueden trabajar juntos ELT y ETL?

Los cambios son tan significativos que posiblemente la mayor tendencia  Más allá de las inversiones de ZAP para proporcionar la plataforma de gestión de datos automatizada más adecuada, está la realidad en la que la gente que antes era “sólo visual” ahora está construyendo flujos de datos y tuberías en herramientas como Power BI y Tableau, que a menudo aumentan el ETL, ELT y la gestión de datos automatizada.

Para obtener más información sobre cómo D4B puede apoyar a su organización visite el siguiente enlace. ¡Comienza ahora!