人民網
人民網>>雲南頻道>>國內

DNA存儲:開啟未來信息存儲新時代

2025年01月02日08:29 | 來源:光明日報
小字號

原標題:DNA存儲:開啟未來信息存儲新時代

新年致讀者

你好,2025!

新的一年,《新科技》將繼續在每周四陪伴新老讀者。

我們將繼續關注科技前沿,為您送上最新最酷的科技成果。

我們將持續做好科學普及,傳播科學精神,為全民科學素養的提高積蓄點滴力量。

我們將聚焦科技新政,深度解析政策背后的內涵與深意。

我們將凝眸科技工作者,為那些在科技強國建設中躬身奉獻的科技人點贊。

2025年,是“十四五”規劃的收官之年,也是將全面深化改革推向縱深的關鍵之年。讓我們一起,感受科技的力量,為加快實現高水平科技自立自強,喝彩!鼓勁!

在數字化飛速發展的時代,我們產生和需要存儲的數據量呈爆炸式增長。傳統的存儲方式,如硬盤、磁帶等,正面臨存儲容量有限、維護成本高以及存儲設備壽命短等諸多限制。自20世紀60年代起,DNA分子因其高存儲密度、高穩定性和易復制等特點,逐漸步入大眾視野,成為未來存儲技術的新希望。“DNA可以用作信息存儲介質嗎?”作為信息領域的前沿熱點,被國際學術期刊《科學》列入125個科學問題之一。2022年,我國“十四五”規劃將DNA存儲列為與新一代移動通信技術、量子信息、第三代半導體等並列的新興技術。

揭開DNA存儲的神秘面紗

DNA,即脫氧核糖核酸,是生物體內承載遺傳信息的大分子。它由腺嘌呤(A)、胸腺嘧啶(T)、鳥嘌呤(G)、胞嘧啶(C)四種核苷酸按特定順序排列而成,恰似計算機代碼中的0和1,共同編織出生命的遺傳密碼。

DNA存儲技術就是巧妙利用了DNA的這一特性,將數字化信息轉化為DNA序列進行存儲。簡單來講,就是把我們日常使用的二進制數據,比如電腦文件等,依據特定編碼規則,轉變為由A、T、G、C組成的DNA序列。例如,一段二進制代碼通過編碼,能夠轉化為一串DNA序列,再將合成好的DNA置於一定環境中,DNA信息存儲便得以實現。

DNA數據存儲的歷史,可追溯至20世紀60年代中期,美國麻省理工學院教授維納和蘇聯物理學家涅曼首次提出“遺傳記憶”概念,但受限於當時DNA測序與合成技術,只是一個初步構想。1988年,哈佛大學教授戴維斯第一次設計並合成了一個包含18個核苷酸的DNA片段,並且將其轉移至大腸杆菌中,這標志著DNA存儲的首次實驗實現。受戴維斯啟發,全球其他科學研究團隊也開始了基於DNA分子的活細胞存儲研究。直到2012年,哈佛大學教授丘奇和歐洲生物信息學研究所科學家戈德曼實現了突破性科學進展,通過創新性的編碼方式以及先進的生物技術手段,首次將圖書內容完整存入DNA之中,充分展示出DNA作為存儲介質的巨大潛力。

作為生物的遺傳物質,DNA分子具有高密度的特點。理論上來說,1克DNA大約能存儲215PB數據,相當於1000萬小時左右的高清視頻。據報道,1噸DNA分子的存儲容量甚至能裝得下全球所有數據總量。這為解決海量數據存儲問題,開拓了廣闊前景與新思路。

同時,DNA具有高度穩定性,在適宜條件下,DNA可保存數千年乃至更久。科學家從遠古生物化石中提取DNA並開展研究分析的實例,充分証明了DNA極強的穩定性和長久保存信息的能力。相比硬盤等傳統存儲介質幾年到十幾年的使用壽命,DNA存儲優勢顯著。

此外,在推行低碳可持續發展的時代背景下,DNA存儲維護的低能耗優勢不容小覷。傳統存儲方式能耗較高,而DNA存儲額外耗能極低——合成並存儲完畢后,在日常環境下便可保存信息。這對節能減排意義重大。

DNA存儲何以實現

那麼,如何實現DNA存儲?

第一步,將數據寫入DNA:數據與DNA序列轉換的橋梁——編碼。

編碼是DNA存儲的首要步驟,是將二進制數據轉化為DNA序列。要實現精確編碼,需制定嚴謹的編碼規則。科學家通常依據DNA核苷酸合成的限制和數據的存儲需求進行設計。比如,規定每2個二進制位對應一種核苷酸組合,00對應A,01對應T,10對應G,11對應C等。

不過,將數字信息准確編碼為DNA序列並非易事,需要設計合適的編碼算法和方案。一方面要確保信息能夠完整、准確地合成為DNA序列,另一方面還要考慮編碼效率和冗余度等問題,以便在后續存儲和讀取過程中實現高效操作。此外,傳統DNA存儲以化學合成的方式逐個加入代表信息的核苷酸,隻能串行寫入分子信息,當存儲大量數據時,面臨存儲速度慢、成本高的問題。

第二步,構建存儲信息的DNA分子:編碼完成后,按編碼的順序逐個加入核苷酸,合成DNA鏈。

目前常用的傳統化學合成方法是基於磷酰胺的化學合成法,但考慮到其合成速度慢、成本高等缺點,科學家也在探索新型DNA合成技術。其中,酶促合成法備受關注,它利用DNA聚合酶等催化DNA合成反應。

與傳統方法相比,酶促合成法操作簡單、步驟簡便,但同時也存在酶的活性調控困難、精確數量的序列合成控制難等問題。

近年來,主流DNA存儲技術是基於“從頭合成”路線,串行進行分子信息寫入。盡管從頭合成技術在通量和效率上不斷提高,但串行合成的底層本質仍嚴重影響了DNA存儲寫入速度和成本,阻礙了DNA存儲的實用化發展。

第三步,存儲與讀取技術:保障數據的保存與恢復。

DNA存儲對環境條件要求比較寬泛,一般需將合成好的DNA保存在低溫、干燥且避光的環境中。低溫(通常零下20攝氏度甚至更低)和干燥能有效減緩DNA分子降解速度﹔避光則是為了防止光照引發DNA分子的損傷,從而保障存儲數據准確性。而讀取DNA存儲數據的方法,就是DNA測序。需依靠DNA測序技術獲取其核苷酸序列。目前主流的DNA測序技術有桑格測序法、NGS測序和納米孔測序等。

並行DNA存儲突破傳統技術瓶頸

針對DNA存儲信息串行寫入的問題,北京大學DNA存儲團隊突破傳統“從頭合成”串行寫入路線,提出了一種基於並行寫入策略的新型DNA存儲策略(該研究工作於2024年發表在《自然》上)。這種方法通過DNA自組裝介導的選擇性酶促甲基化(表觀遺傳修飾),對DNA中特定位點進行甲基化,以實現信息編碼,避免了對從頭合成DNA的依賴。這種方法被形象地比喻為DNA上的活字印刷技術,不僅可以加快信息的寫入速度,並且由於採用預制的分子活字塊和長鏈模板,方便批量操作,極大降低了存儲成本。

首先預先合成700種“DNA活字”和5條DNA長鏈“白紙”模板。通過人工設計,使得每個“活字”塊都可通過DNA自組裝錨定到模板上的特定位置。其中,每個位置的DNA“活字”有兩種:攜帶或不攜帶甲基修飾,分別代表0或1。隨后,通過甲基轉移酶介導半甲基化轉移,將模板中的特定位置甲基進行轉移,從而實現並行的選擇性分子信息寫入。

研究團隊使用有限的預制DNA活字和長鏈模板排版編程,在自動平台上實現約27.5萬個比特的並行甲基修飾信息寫入,單次反應分子寫入通量為350比特,極大提高了DNA存儲的信息寫入通量(從頭合成的DNA數據存儲中單個反應約1比特的輸出量)。

這項技術的核心突破在於,能通過預制的DNA模板和活字塊,在分子底層以排版的方式並行打印表觀比特(epi-bit)信息,實現分子數據的精確高通量寫入,進而完成大規模並行DNA存儲。與傳統DNA數據存儲方法相比,這種活字印刷並行寫入方式僅需有限數量的預制DNA分子,避免了復雜煩瑣DNA序列編碼過程,不僅大幅降低分子信息寫入復雜度,還能降低成本、提高操控靈活性。

雖然DNA存儲技術在持續進步,但仍面臨一些亟待破解的問題。

DNA合成和測序成本仍較為高昂。DNA合成需復雜化學工藝和高端設備,導致DNA存儲的成本居高不下。同樣,盡管測序技術持續進步,但准確測序成本仍然較高,這使得DNA存儲難以應用於現實生活。與硬盤等傳統存儲設備的讀取速度相比,DNA存儲走向實用化差距明顯。此外,在DNA存儲過程中,寫入和讀取環節錯誤率較高。例如,寫入過程可能出現不正確的修飾等錯誤,讀取時也可能因測序誤差導致還原數據不准確等。這些分子數據存儲自身存在的問題,將影響DNA存儲的可靠性和實用性。

盡管如此,DNA仍是最具廣闊應用前景的存儲方式之一。

——在長期冷數據存儲方面,像國家歷史檔案、珍貴文物資料這類需要長期保存的數據,DNA有著超長存儲時間以及高存儲密度的優勢,是理想的存儲方式。將這些數據存於DNA中,哪怕過了數千年依然能完好讀取,有力保障了人類文明的傳承。

——在航天領域,航天活動中數據存儲的能耗和太空復雜環境是關鍵的考量要點。而DNA存儲具備低能耗、高存儲密度和高穩定的特性,因此有望適用於該領域。比如,科學家可以把航天器飛行數據、科學實驗數據等存儲在DNA中,既能減輕存儲設備重量,又能在能源有限條件下實現數據的長期保存。

——在生物醫學領域,DNA可用來存儲大量的基因數據、醫療診斷照片和病人病歷等。隨著個性化醫療不斷發展,對於患者個體基因數據長期保存以及准確讀取的需求也在持續增加。

——在私人數據存儲方面,並行DNA存儲技術,由於操作簡單、環境需求低和預制合成等特點,特別適合於高隱私要求的私人定制DNA存儲應用。這也有望推動DNA存儲的實用化發展,走入千家萬戶。

DNA存儲作為新興技術,已展現出巨大優勢。未來,它很可能成為數據存儲的重要方式之一,為海量數據存儲與相關領域的發展提供有力支持。(張成 錢瓏)

(責編:木勝玉、朱紅霞)

分享讓更多人看到

返回頂部