Um estudo inovador dá um passo significativo na busca pelo desenvolvimento de um DNAsistema de armazenamento baseado em dados digitais.
Digital dados, está crescendo a uma taxa exponencial hoje devido à nossa dependência de gadgets e requer armazenamento robusto de longo prazo. O armazenamento de dados está lentamente a tornar-se um desafio porque a tecnologia digital atual não é capaz de fornecer uma solução. Um exemplo é que foram criados mais dados digitais nos últimos dois anos do que em toda a história da computadores, na verdade, 2.5 quintilhões de bytes {1 quintilhão de bytes = 2,500,000 Terabytes (TB) = 2,500,000,000 Gigabytes (GB)} de dados estão sendo criados todos os dias no mundo. Isto inclui dados sobre sites de redes sociais, transações bancárias online, registos de empresas e organizações, dados de satélites, vigilância, investigação, desenvolvimento, etc. Portanto, é agora um grande desafio enfrentar os enormes requisitos de armazenamento de dados e o seu crescimento exponencial, especialmente para organizações e corporações que necessitam de armazenamento robusto a longo prazo.
As opções disponíveis atualmente são disco rígido, discos ópticos (CDs), stick de memória, drives flash e a unidade de fitas mais avançada ou discos BluRay ópticos que armazenam cerca de 10 Terabytes (TB) de dados. Esses dispositivos de armazenamento, embora sejam usados comumente, têm muitas desvantagens. Em primeiro lugar, eles têm uma vida útil de baixa a média e precisam ser armazenados em condições ideais de temperatura e umidade para poder durar muitas décadas e, portanto, requerem espaços físicos de armazenamento especialmente projetados. Quase todos eles consomem muita energia, são volumosos e pouco práticos e podem ser danificados com uma simples queda. Alguns deles são muito caros, costumam ser afetados por erros de dados e, portanto, não são robustos o suficiente. Uma opção que tem sido universalmente aceita pela organização é chamada de computação em nuvem - um arranjo em que uma empresa basicamente contrata um servidor “externo” para lidar com todos os seus requisitos de TI e armazenamento de dados, conhecido como “nuvem”. Uma das principais desvantagens da computação em nuvem são os problemas de segurança e privacidade e a vulnerabilidade a ataques de hackers. Existem também outros problemas, como altos custos envolvidos, controle limitado pela organização principal e dependência da plataforma. A computação em nuvem ainda é considerada uma boa alternativa para armazenamento de longo prazo. No entanto, parece que as informações digitais sendo geradas em todo o mundo certamente estão superando nossa capacidade de armazená-las e soluções ainda mais robustas são necessárias para atender a esse dilúvio de dados, ao mesmo tempo que fornece escalabilidade para levar em consideração as necessidades futuras de armazenamento.
O DNA pode ajudar no armazenamento do computador?
Nosso DNA (ácido desoxirribonucléico) está sendo considerado um meio alternativo interessante para armazenamento digital de dados. DNA é o material auto-replicante presente em quase todos os organismos vivos e é o que constitui a nossa informação genética. Um artificial ou sintético DNA é um material durável que pode ser produzido utilizando máquinas de síntese de oligonucleótidos disponíveis comercialmente. O principal benefício do DNA é sua longevidade como DNA dura 1000 vezes mais que o silício (chip de silício – o material usado para construir computadores) Surpreendentemente, apenas um único milímetro cúbico de DNA pode conter um quintilhão de bytes de dados! DNA também é um material ultracompacto que nunca se degrada e pode ser armazenado em local fresco e seco por centenas de séculos. A ideia de usar DNA para armazenamento já existe há muito tempo, desde 1994. A principal razão é a maneira semelhante como a informação é armazenada em um computador e em nosso DNA – já que ambos armazenam os modelos de informações. Um computador armazena todos os dados como 0s e 1s e o DNA armazena todos os dados de um organismo vivo usando as quatro bases – timina (T), guanina (G), adenina (A) e citosina (C). Portanto, o DNA poderia ser chamado de dispositivo de armazenamento padrão, assim como um computador, se essas bases pudessem ser representadas como 0s (bases A e C) e 1s (bases T e G). O ADN é resistente e duradouro, e a reflexão mais simples é que o nosso código genético – o modelo de toda a nossa informação armazenada no ADN – é transmitido eficientemente de uma geração para a seguinte, de forma repetida. Todos os gigantes de software e hardware estão interessados em usar DNA sintético para armazenar grandes quantidades para atingir seu objetivo de resolver o arquivamento de dados a longo prazo. A ideia é primeiro converter os códigos de computador 0s e 1s no código de DNA (A, C, T, G), o código de DNA convertido é então usado para produzir fitas sintéticas de DNA que podem então ser armazenadas a frio. Sempre que necessário, os filamentos de DNA podem ser removidos do armazenamento refrigerado e suas informações decodificadas usando uma máquina de sequenciamento de DNA e a sequência de DNA é finalmente traduzida de volta para o formato binário de computador de 1s e 0s para ser lida no computador.
Foi mostrado1 que apenas alguns gramas de DNA podem armazenar quintilhões de bytes de dados e mantê-los intactos por até 2000 anos. No entanto, esse entendimento simples enfrentou alguns desafios. Em primeiro lugar, é bastante caro e também dolorosamente lento escrever dados no DNA, ou seja, a conversão real de 0s e 1s nas bases do DNA (A, T, C, G). Em segundo lugar, uma vez que os dados são “gravados” no DNA, é um desafio encontrar e recuperar arquivos e requer uma técnica chamada DNA sequenciamento - processo de determinação da ordem precisa das bases dentro de um DNA molécula - após a qual os dados são decodificados de volta para 0s e 1s.
Um estudo recente2 por cientistas da Microsoft Research e da University of Washington conseguiram um “acesso aleatório” no armazenamento de DNA. O aspecto “acesso aleatório” é muito importante porque significa que a informação pode ser transferida de ou para um local (geralmente uma memória) em que cada local, não importa onde na sequência e pode ser acessado diretamente. Usando essa técnica de acesso aleatório, os arquivos podem ser recuperados do armazenamento de DNA de maneira seletiva em comparação com o anterior, quando tal recuperação exigia a necessidade de sequenciar e decodificar um conjunto de dados de DNA inteiro para encontrar e extrair os poucos arquivos desejados. A importância do “acesso aleatório” aumenta ainda mais quando a quantidade de dados aumenta e se torna enorme, pois reduz a quantidade de sequenciamento que precisa ser feito. É a primeira vez que o acesso aleatório é mostrado em uma escala tão grande. Os pesquisadores também desenvolveram um algoritmo para decodificar e restaurar dados de forma mais eficiente, com maior tolerância a erros de dados, tornando o procedimento de sequenciamento também mais rápido. Mais de 13 milhões de oligonucleotídeos de DNA sintético foram codificados neste estudo, que eram dados de 200 MB consistindo em 35 arquivos (contendo vídeo, áudio, imagens e texto) variando em tamanho de 29 KB a 44 MB. Esses arquivos foram recuperados individualmente sem erros. Além disso, os autores desenvolveram novos algoritmos que são mais robustos e tolerantes a erros ao escrever e ler as sequências de DNA. Este estudo publicado em Biotecnologia Natural em um grande avanço mostrando um sistema viável e em grande escala para armazenamento e recuperação de DNA.
O sistema de armazenamento de DNA parece muito atraente porque possui alta densidade de dados, alta estabilidade e é fácil de armazenar, mas obviamente enfrenta muitos desafios antes de poder ser adotado universalmente. Poucos fatores são o tempo e o trabalho intensivo de decodificação do DNA (o sequenciamento) e também a síntese de DNA. A técnica requer mais precisão e cobertura mais ampla. Embora tenham sido feitos avanços nesta área, o formato exato em que os dados serão armazenados a longo prazo, como DNA ainda está evoluindo. A Microsoft prometeu melhorar a produção de DNA sintético e enfrentar os desafios para projetar um sistema totalmente operacional DNA sistema de armazenamento em 2020.
***
{Você pode ler o artigo de pesquisa original clicando no link DOI fornecido abaixo na lista de fontes citadas}
Fontes)
1. Erlich Y e Zielinski D 2017. DNA Fountain permite uma arquitetura de armazenamento robusta e eficiente. Ciência. 355 (6328). https://doi.org/10.1126/science.aaj2038
2. Organick L et al. 2018. Acesso aleatório no armazenamento de dados de DNA em grande escala. Nature Biotechnology. 36 https://doi.org/10.1038/nbt.4079