Nestes últimos 3 anos, eu li uma série de artigos abordando a incrível quantidade de dados e informações que o ser humano vem gerando nessa última década, sabemos por exemplo, que toda a informação que uma pessoa adquiri em uma semana nos dias de hoje é equivalente a toda informação adquirida por toda uma vida de uma pessoa que vivia no século XVII,  o motivo desta discrepância está na evolução tecnológica que o ser humano obteve no decorrer dos séculos quanto a produção e o acesso a informação.

Tudo começou com Gutemberg há 7 séculos, e hoje temos o IPAD que consegue armazenar milhares de livros. Centenas de milhares de dados são gerados a cada segundo e são armazenados de acordo com a necessidade, para presente ou futura utilização. Eu li que uma turbina de um Boeing 737 consegue gerar mais de 10 TB de dados em 30 minutos, mas a Boeing precisa de milhares de TB de dados para analisar o bom ou mau funcionamento desta turbina diariamente ?

O site de um dos clientes que suporto gera 200GB de dados por dia, mas esses dados são relevantes, precisam ser armazenados ? A resposta é não.

O gráfico acima demonstra a quantidade de dados gerados nesses últimos anos, mas ele não faz um distinção de quais dados são relevantes e quais dados não são. É isso que me preocupa.

Muitos dados são descartados diariamente ou semanalmente, dependendo da política de retenção dos dados ou de backup. O ser humano vem gerando e armazenando dados de uma forma assustadora, e várias empresas de TI, principalmente as que trabalham com a venda de espaço em disco, fazem um certo alarde e muita propaganda quanto ao futuro do armazenamento dos dados, precisamos ficar preocupados, e o mais importante, saber qual tipo de dado é relevante para ser armazenado e também, qual é o tipo de armazenamento mais adequado para um tipo de dado.

Será que eu preciso de uma série de detalhes provenientes de todos os cartórios do Brasil ou eu só preciso saber se um determinado registro existe e se o mesmo está armazenado no cartório x, para que eu possa solicitar a cópia ?

O tipo de informação ou dado que eu desejo disponibilizar para consulta é diretamente proporcional a quantidade de espaço em disco que eu possuo para armazená-lo, dai a necessidade de otimização quanto ao provimento destes dados. A indexação está ai para facilitar e agilizar esse processo, mas caso eu necessite de mais detalhes, irei acessar somente aquele respectivo dado, economizando em bastante espaço em disco. Só irei crescer a quantidade de espaço ocupado quando for necessário.

Crianças de 8 à 10 anos já reclamam da quantidade de informação inútil ou com detalhes desnecessários vindas de uma simples busca no Google, eu quero saber quando tal pessoa morreu, mas não que ela morreu de tal doença devido ao protozoário tal, contraído na viagem feita a Índia. O wikipedia é uma verdadeira enciclopédia virtual, todos os detalhes em um simples clique, com uma série de informações, e várias delas correlacionadas, a iniciativa da livre contribuição foi uma excelente ideia, mas foi perdendo adeptos com o tempo.

Por que grandes empresas, universidades ou fundações não se associam e montam com o wikipedia o maior acervo da informação virtual em todo o mundo ? Poderíamos eliminar muitos dados e informações duplicadas e com isso, muito espaço em disco seria liberado.

Um ponto que acho interessante é a quantidade de dados inúteis e replicados que temos espalhados por toda parte, se tivéssimos uma ferramenta capaz de indexar toda essa informação em poucos lugares e possuísse uma forma de achar dados duplicados e removê-los, teríamos tanto ganho de performance quanto a correta alocação de espaço em disco.

Eu só vejo um problema nesta minha ideia, quem irá dizer se um determinado dado possui qualidade e o outro dado não ? Pessoas, organizações ou governos ? Informação é igual poder, dai temos que ter cuidado com quem cuida da informação.

Veremos como será o futuro quanto ao armazenamento de dados e a sua distribuição, se continuará caótica ou será criada alguma forma ordenada e que consiga gerar economia.