Tesis: "Stockage de données dans l’ADN"

1

Dimopoulou, Melpomeni. "Techniques de codage pour le stockage à long terme d’images numériques dans l’ADN synthétique". Thesis, Université Côte d'Azur, 2020. http://www.theses.fr/2020COAZ4073.

Texto completo

Resumen

L’explosion de la quantité de données est l’un des plus grands défis de l'évolution numérique, entraînant une croissance de la demande de stockage à un rythme tel qu'elle ne peut pas rivaliser avec les capacités réelles des périphériques. L'univers numérique devrait atteindre plus de 175 zettaoctets d'ici 2025, tandis que le 80% de ces données est rarement consultée (données froides), mais archivée sur des bandes magnétiques pour des raisons de sécurité et de conformité réglementaire. Les dispositifs de stockage conventionnels ont une durée de vie limitée de 10 à 20 ans et doivent donc être fréquemment remplacés pour garantir la fiabilité des données, un processus qui est coûteux en termes d'argent et d'énergie. L'ADN est un candidat très prometteur pour l'archivage à long terme de données « froides » pendant des siècles voire plus à condition que l'information soit encodée dans un flux quaternaire constitué des symboles A, T, C, G, pour représenter les 4 composants de la molécule d'ADN, tout en respectant certaines contraintes d'encodage importantes. Dans cette thèse, nous présentons de nouvelles techniques de codage pour le stockage efficace d'images numériques dans l'ADN. Nous avons implémenté un nouvel algorithme de longueur fixe pour la construction d'un code quaternaire robuste qui respecte les contraintes biologiques et proposé deux fonctions de "mapping" différentes pour permettre une flexibilité par rapport aux besoins d'encodage. De plus, l'un des principaux défis du stockage des données dans l’ADN étant le coût élevé de la synthèse, nous faisons une toute première tentative pour introduire une compression contrôlée dans la solution de codage proposée. Le codec proposé est compétitif par rapport à l'état de l'art. En outre, notre solution de codage / décodage de bout en bout a été expérimentée dans une expérience de laboratoire humide pour prouver la faisabilité de l'étude théorique dans la pratique
Data explosion is one of the greatest challenges of digital evolution, causing the storage demand to grow at such a rate that it cannot compete with the actual capabilities of devices. The digital universe is forecast to grow to over 175 zettabytes by 2025 while 80% is infrequently accessed (“cold” data), yet safely archived in off-line tape drives due to security and regulatory compliance reasons. At the same time, conventional storage devices have a limited lifespan of 10 to 20 years and therefore should be frequently replaced to ensure data reliability, a process which is expensive both in terms of money and energy. Recent studies have shown that due to its biological properties, DNA is a very promising candidate for the long-term archiving of “cold” digital data for centuries or even longer under the condition that the information is encoded in a quaternary stream made up of the symbols A, T, C and G, to represent the 4 components of the DNA molecule, while also respecting some important encoding constraints. Pioneering works have proposed different algorithms for DNA coding leaving room for further improvement. In this thesis we present some novel image coding techniques for the efficient storage of digital images into DNA. We implemented a novel fixed length algorithm for the construction of a robust quaternary code that respects the biological constraints and proposed two different mapping functions to allow flexibility according to the encoding needs. Furthermore, one of the main challenges of DNA data storage being the expensive cost of DNA synthesis, we make a very first attempt to introduce controlled compression in the proposed encoding workflow. The, proposed codec is competitive compared to the state of the art. Furthermore, our end-to-end coding/decoding solution has been experimented in a wet lab experiment to prove feasibility of the theoretical study in practice