以甲基化編碼取代合成DNA,讓DNA特定部被讀取為0與1比主流方法更快、更便宜,無專業人員也能無礙完成編碼面臨兩大挑戰:無法以PCR複製DNA,定序完資料庫才能訪問
周三(10/23)發表在《自然》期刊的一份研究,介紹了能將大量圖片及照片存儲在DNA之中的新方法,該方法有望提供一種能滿足高密度數據存儲需求的可擴展性解決方案。雖然DNA作為數據存儲的媒介將會是未來極具市場發展潛力的誘人應用,但如果要大規模應用,還需要更多的研究。
DNA包含了所有生物體的遺傳指令,由稱為核苷酸(nucleotides)的化學基本組成組件構成。構成核苷酸的數十億含氮鹽基(nitrogen bases),包括腺嘌呤(adenine)、胸腺嘧啶(thymine)、鳥嘌呤(guanine)和胞嘧啶(cytosine),決定了從指甲生長速度到頭髮顏色等各方面。但這些鹼基對(base pairs)模式也可以編碼數據,這意味著可以用它來存儲從密碼錶到高解析度影片等各種數據。
最近來自中國北京大學、德國斯圖加特大學及美國亞利桑那大學研究人員組成的研究團隊,成功將一幅16,833位元的中國拓本圖片和一張252,504位元的貓熊照片存入DNA中,隨後成功無誤地從DNA中取回這些文件。他們並將研究成果發表在《自然》期刊上。
事實上,在此之前研究人員就曾通過合成DNA存儲數據。2018年,由華盛頓大學與微軟研究院的科學組成的研究團隊成功將35個文件(總計超過200MB的數據)編碼並存儲於超過1,300萬個DNA寡核苷酸(oligonucleotides)中,證明此存儲系統的可行性。
最新研究和2018年研究的最大差異在於,研究人員是在不進行重新合成DNA的情況下完成了這項存儲壯舉,過去通過合成DNA的存儲方式,不論在投資時間和成本上皆不符合經濟效益。
反觀這次研究團隊改採甲基化(methylation)方法來編碼分子。甲基化是一種酶將甲基(由一個碳原子和三個氫原子組成的分子)添加到DNA鏈上特定位點的過程。這使得該團隊能對DNA片段(其與DNA特定部分相連接)進行組合,進而讓這些DNA部分可被讀取為0或1。
新研究論文共同作者、北京大學研究員錢瓏表示,在我們的方案中,DNA串行充當地址,而字母當下的修改狀態代表數據。要寫入特定資訊,只需為每個地址選擇0/1狀態,這些狀態將自動對應DNA,這個過程稱之為「排版」。排版之後,數據會同時複製到一條DNA鏈上,這一過程稱之為「印刷」。
錢瓏進一步指出,他們所採行的策略有可能比主流方法便宜且快上好幾個數量級,這可能讓DNA存儲今後具備商業可行性。
該研究論文並指出,研究團隊成功以每次反應寫入350位元的頻率一共編碼了近300,000位元。不僅如此,整個過程由60名無專業生物實驗室背景經驗的志願者完成,展示了該方法的無障礙特性。
華盛頓大學研究人員Carina Imburgia和Jeff Nivala評論指出,以DNA作為數據存儲媒介具有巨大潛力,因為1克的分子就可以存儲高達215,000 TB的數據。
然而,兩位研究人員也指出上述的新研究面臨兩大挑戰,首先,該團隊方法中至關重要的甲基,無法通過聚合酶連鎖反應(PCR)這個複製大量DNA的標準方法來進行複製。
另一個挑戰在於,許多應用程序需要隨機訪問內存(RAM),以便從資料庫中檢索並讀取數據子集。然而,在表觀遺傳資訊位元系統(epi-bit system)中,必須對整個資料庫進行定序後才能訪問任何文件的子集,即使通過納米孔定序(nanopore sequencing,針對核酸進行定序的第三代定序技術)的效率也不高。總而言之,為了訪問任何數據,你必須對整個資料庫進行定序。
(首圖來源:Unsplash)