Por mucho que hayan opciones tecnológicas, y crealo, hay muchas, no todas son eficaces cuando se trata de manipular grandes volúmenes de datos. Y como siempre decimos aquí, si los datos son los activos más grandes de la empresa, el uso del recurso adecuado para almacenarlos es fundamental.
En este sentido, creemos que Dora es la mejor tecnología para el manejo de grandes volúmenes de datos.
Entre sus diferenciales técnicos se encuentra la capacidad de almacenar datos en sistemas de archivos, permitiendo tasas de compresión superiores al 90%. En comparación, otras soluciones de mercado comprimen, en promedio, al 70% de los datos, en las mismas condiciones que Dora.
En PGConf Brasil 2019, Tatic presentó la solución para almacenamiento y acceso inteligente a grandes volúmenes de datos,basado según esta tecnología.
Logramos estas altas tasas de compresión debido a la forma de almacenamiento que utilizamos, capaz de reorganizar los datos con el objetivo final de permitir más entropía entre ellos.
Código abierto: presente y futuro de la manipulación de datos
No es suficiente organizar y almacenar los datos; usted necesita entender cómo consultarlos. Esta necesidad hace que sea esencial adoptar otras tecnologías de vanguardia en la manipulación de datos.
Aquí en Tatic, para consultar los datos almacenados, utilizamos PostgreSQL como motor de búsqueda. Esta elección de base de datos se debe a varios factores, de los cuales podemos destacar como principal la robustez, la capacidad de soportar extensiones y por supuesto, ser una base de datos de código abierto.
Las bases de datos de código abierto son, y seguirán siendo, cada vez más una tendencia. Una encuesta reciente de Gartner indicó que para 2022, 70% de las nuevas soluciones de bases de datos se basarán en código abierto.
Además, 50% de las soluciones actuales deben migrarse a bds de código abierto.
Pero hablemos de otra característica importante de PostgreSQL: su potencia. Esta es hoy la base de datos más robusta. Debido a esto, es el de más rápido crecimiento entre las soluciones de código abierto.
También vale la pena recordar que PostgreSQL es compatible con numerosas extensiones, como «Foreign Data Wrappers». Esta extensión permite interacciones SQL entre los datos almacenados en repositorios remotos.
¿Qué recomienda Tatic?
Tatic utiliza esta tecnología para realizar consultas sobre el producto Tatic Dora, un repositorio comprimido remoto en el que los datos se almacenan de forma distribuida. Esto se hace a través del partimiciones.
Se utiliza DoraStorer, una utilidad que lee archivos de entrada de varias fuentes, como .txt, .csv y tablas particionadas de PostgreSQL, entre otras.
Además, DoraStorer reorganiza los datos, los comprime en bloques, en las estructuras del sistema de archivos de Dora y, por supuesto, los almacena.
El uso de particiones y «tablas extranjeras» en PostgreSQL nos permite mantener particiones con datos en la base de datos, considerados «datos calientes». Mientras tanto, el volumen más grande, con la información más antigua – o «datos fríos» – se comprime y almacena en la estructura del sistema de archivos de Dora.
Dora
Dora es una solución que almacena datos en sistemas de archivos con tasas de compresión superiores a 90 y de forma transparente le permite acceder a esos datos. Esto se hace a través de PostgreSQLde una manera estructurada, utilizando toda la potencia del lenguaje SQL.
Además, Dora almacena los datos de forma distribuida, a través del particionamiento, lo que permite el uso del procesamiento de PostgreSQL para realizar consultas a esos datos.
También es posible, a través de particiones y «tablas extranjeras», de PostgreSQL, mantener las particiones en la base de datos («datos calientes»), mientras que el volumen más grande con la información más antigua («datos fríos») se almacena, comprimido en la estructura del sistema de archivos de Tatic Dora.
Aun así, el acceso a los datos se realiza de forma transparente, no afectando a las consultas. Esta arquitectura, además de «desahogar» la base de datos, genera grandes ahorros de almacenamiento.
Además, nos permite elegir mantener los últimos datos, con o sin replicación, en el propio PostgreSQL, para acelerar aún más las consultas.
A medida que estos datos se hacen más antiguos, puede exportar particiones a Dora Data Lake con compresión. Dora hace que las búsquedas sean más transparentes, ya sea a partir de datos recientes almacenados en el marco PostgreSQL o de datos históricos almacenados en el sistema de archivos Dora Data Lake.
Debido a esto, eliminar las particiones exportadas después de este acto se convierte en una tarea más sencilla comprimiendo todos los datos en Dora Data Lake. La creación de particiones y la distribución de datos en clústeres se pueden configurar en gran medida.
Y todo esto en PGCONF 2019…
En agosto de 2019, Tatic patrocinó el evento PostgreSQL más grande de América Latina. PGCONF ha tenido numerosos expertos en este lenguaje, incluyendo desarrolladores que contribuyen a la formación de su código.
En este evento aprendimos un poco más sobre PostgreSQL, así como compartir nuestra propia experiencia en la creación de extensiones de compresión de datos para este lenguaje.
Por lo tanto, aquí está el consejo: mantenerse al día sobre la mejor tecnología para el manejo de big data, asistir a eventos, talleres y conferencias de entusiastas, estudiantes y desarrolladores de los nuevos idiomas. Es en manos de esta multitud que el futuro está hecho.
Siga a Tatic en las redes sociales para estar informado con antelación de nuestros próximos eventos.