Por mais que existam opções tecnológicas acredite, são muitas, nem todas são efetivas quando o assunto é manipular grandes volumes de dados. E, como sempre dizemos por aqui, se os dados são os maiores ativos da empresa, utilizar o recurso adequado para armazená-los é fundamental.

Nesse quesito, acreditamos que o Dora é a melhor tecnologia para manipulação de grandes volumes de dados.

Entre seus diferenciais técnicos está a capacidade de armazenar os dados em file systems, permitindo taxas de compressão maiores que 90%. Em comparação, outras soluções de mercado comprimem, em média, 70% dos dados, nas mesmas condições que o Dora

Na PGConf Brasil 2019 a Tatic apresentou a solução para o armazenamento e acesso inteligente a grandes volumes de dados, baseados nessa tecnologia.

Alcançamos essas altas taxas de compressão devido à forma de armazenamento que utilizamos, capaz de reorganizar os dados com o objetivo final de possibilitar mais entropia entre eles.

 

Código aberto: presente e futuro da manipulação de dados

Não basta organizar e armazenar os dados; é preciso entender como consultá-los. Essa necessidade torna imprescindível a adoção de outras tecnologias de ponta na manipulação de dados.

Aqui na Tatic, para consultar os dados armazenados, utilizamos o PostgreSQL como motor de busca. Essa escolha do banco de dados se deve a diversos fatores, dos quais podemos destacar como principais a robustez, a capacidade de suportar extensões e, claro, ser um banco de dados de código aberto.

Bancos de dados de código aberto são, e continuarão sendo, cada vez mais, uma tendência. Uma pesquisa recente do Gartner apontou que, até 2022, 70% das novas soluções de bancos de dados serão baseados em código aberto. 

Além disso, 50% das soluções atuais devem ser migradas para bds de código aberto.

Mas vamos falar de uma outra característica importante do PostgreSQL: sua potência. Esse é, hoje, o banco de dados mais robusto. Por causa disso, é o que mais cresce entre as soluções de código aberto.

Vale lembrar, também, que o PostgreSQL suporta inúmeras extensões, como os “Foreign Data Wrappers”. Essa extensão permite interações via SQL entre dados armazenados em repositórios remotos.

O que a Tatic recomenda?

A Tatic utiliza essa tecnologia para realizar consultas no produto Tatic Dora, um repositório remoto comprimido em que os dados são armazenados de forma distribuída. Isso é feito através de sharding. 

Para tanto, é empregado o DoraStorer, utilitário que lê arquivos de entrada de diversas fontes, como .txt, .csv e tabelas particionadas do próprio PostgreSQL, dentre outros.  

Além disso, o DoraStorer reorganiza os dados, os comprime em blocos, nas estruturas de File System do Dora – e, claro, os armazena. 

A utilização do particionamento e “foreign tables” no PostgreSQL nos permite manter partições com dados no banco, considerados “dados quentes”. Enquanto isso, o volume maior, com as informações mais antigas – ou “dados frios” – fica comprimido e armazenado na estrutura de file system do Dora.

 

Dora 

O Dora é uma solução que armazena os dados em file systems com taxas de compressão maiores que 90% e permite, de forma transparente, acessar esses dados. Isso é feito através do PostgreSQL, de forma estruturada, utilizando todo o poder da linguagem SQL.

Além disso, o Dora armazena os dados de forma distribuída, através de sharding, permitindo a utilização do processamento do PostgreSQL para realizar consultas a esses dados.

É possível, também, através de particionamento e “foreign tables”, do PostgreSQL, manter partições no banco de dados (“dados quentes”), enquanto o volume maior com as informações mais antigas (“dados frios”) fica armazenado, comprimido na estrutura de file system do Tatic Dora.

Ainda assim, o acesso aos dados é feito de forma transparente, não impactando nas consultas. Essa arquitetura, além de “desafogar” o banco de dados, gera grande economia de storage.

Pra completar, ela nos permite optar em manter os dados mais recentes, com ou sem replicação, no próprio PostgreSQL, para acelerar ainda mais as consultas. 

À medida que esses dados vão se tornando mais antigos, é possível realizar a exportação das partições para o Dora Data Lake, com compressão. O Dora torna as buscas mais transparentes, seja dos dados recentes, armazenados na estrutura do PostgreSQL, ou dos dados históricos, armazenados no “file system” do Dora Data Lake.

Por conta disso, apagar as partições exportadas após esse ato torna-se uma tarefa mais simples, compactando todos os dados no Dora Data Lake. O particionamento e a distribuição dos dados em clusters é amplamente configurável.

 

E tudo isso no PGCONF 2019…

Em agosto de 2019, a Tatic patrocinou o maior evento sobre PostgreSQL da América Latina. A PGCONF contou com inúmeros especialistas nessa linguagem, incluindo desenvolvedores que contribuem com a formação de seu código.

Nesse evento aprendemos um pouco mais sobre o PostgreSQL, além de compartilhar nossa própria experiência na criação de extensões de compressão de dados para essa linguagem. 

Portanto, fica a dica: para continuar sempre atualizado sobre a melhor tecnologia para manipulação de grandes volumes de dados, participe de eventos, workshops e palestras de entusiastas, estudantes e desenvolvedores das novas linguagens. É nas mãos dessa galera que o futuro se faz.

Siga a Tatic nas redes sociais para ser informado, com antecedência, dos nossos próximos eventos.