데이터를 DNA에 저장한다

조회수 2017. 6. 22. 18:55 수정
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

By 이웃집과학자
출처: giphy.com
음? 정말??
출처: ddna
데이터 정보가 쏟아진다

엄청난 양의 정보를 저장하고 보존하는 데 쓰일 높은 새로운 기술이 떠오르고 있습니다. 일명 ‘디지털 DNA’인데요. 기존에 있던 0과 1로 메모리 저장이 되는 비트(bit) 방식을 초월하는 아이디어입니다. 이 DNA가 인간이나 동물의 DNA를 가리키진 않습니다. 정보 저장용 DNA를 따로 제작합니다. 

어쩌다 DNA에 저장할 생각했나

데이터를 DNA에 저장하면 어떨까 하는 발상은 2011년 2월 European Bioinformatics Institute(EBI)의 그룹 리더인 Nick Goldman과 생물정보학자 동료들 사이에서의 대화에서 출발합니다. 그들은 현재의 비트(bit) 방식 컴퓨팅 기술에 대해 불만을 토로하던 중이었습니다.


세계적으로 생산되는 대량의 게놈(genome) 서열을 포함한 각종 정보를 기존 방식으로 저장하기엔 비용과 용량 문제가 크다는 고민이었습니다. “DNA에 데이터를 저장 못할 건 없지.” 장난스레 나온 누군가의 말이 이 새로운 연구의 계기가 됐습니다.

Goldman과 그의 EBI 동료 Ewan Birney는 이 아이디어를 연구실로 그대로 가져갑니다. 2년 후에 셰익스피어의 소네트와 마틴 루터 킹의 ‘I Have a Dream’ 연설 등 5개의 파일을 DNA에 암호화 시키는 데 성공했다고 발표합니다. 이 시점은 생물학자 George Church와 미국 하버드 대학의 연구팀이 다른 연구팀이 비슷한 연구를 이미 공개했을 때입니다.


차이가 있다면 Goldman 팀의 DNA 저장 용량이 당시 제일 컸던 739 킬로바이트(kB) 규모였다는 점입니다. 2016년 7월에는 Microsoft와 미국의 워싱턴 대학이 함께 200 메가바이트(MB) 상당의 저장 용량을 갖추게 됩니다. 

Goldman은 DNA의 특성 상 건조하고 서늘한 곳에 안전하게 보관하면 수천년 동안 데이터를 보존할 수 있다고 말합니다. 

출처: giphy.com
DNA 데이터 저장 방법
출처: sciencenode.org
유전자모양이다 히히

DNA에 정보를 저장하는 방식을 구체적으로 살펴보면 앞서 소개된 Goldman 팀과 George Church 연구팀의 예를 들 수 있습니다. 두 팀 다 뉴클레오티드(nucleotide)라는 DNA의 기본 단위에 정보를 저장하는 방식인데요. DNA의 일부인 핵산(nucleic acid)을 긴 사슬 모양으로 구성하는 단위를 가리킵니다.


Goldman의 방법은 다소 복잡한 암호형식 입니다. 모든 바이트(byte)가 A, C, G 혹은 T로 표현되는 겁니다. 한 바이트는 0이나 1로 이루어진 8개의 비트인데, 각 바이트는 A, C, G나 T로 대체된 알파벳으로 구성된 단어 하나를 대표합니다.


DNA에 저장된 정보를 읽기 위해서는 DNA 합성 기계, 즉 저장된 데이터를 해독하는 기계에 넣어야 합니다. 물리적이고 가시적인 형태로 볼 수 있게 말이죠. 마치 잉크젯 프린터가 종이에 잉크를 내려놓는 것과 같은 원리라고 Goldman팀이 설명합니다.


George Church는 각각의 이진 부호에 뉴클레오티드 2개씩 부여합니다. 0에는 A와 C를, 1에는 G와 T를 배정하는 것이죠. 

출처: giphy.com
한계와 보완점
출처: illumina.com
흠.. 어렵다

DNA에 데이터를 저장하면 100 뉴클레오티드 중 하나는 정보 기록 시 실수가 발생한다는 단점이 있습니다. 뉴클레오티드를 생산하고 여기에 데이터를 기록하거나 해독하는 과정도 매우 느립니다.


Goldman은 비용이 시간이 갈수록 줄어들 것이라 예상하지만 아직까지는 비싸다고 합니다. 전용 데이터 센터를 세우는 것도 경제적 부담이 만만치 않습니다. 앞으로 디지털 DNA가 광범위하게 사용되려면 신뢰성과 접근성이 더 높아져야 할 것입니다.


Goldman 연구팀은 데이터 텍스트를 이진부호(0,1)로, 이진부호에서 트리플렛 부호(0,1,2)로, 그리고 트리플렛 부호에서 DNA 코드(A, C, G, T)로 여러 번 변환시키는 시도를 했습니다. 많은 가닥들이 생산되면서 100개의 DNA 베이스 지점에서 겹치는 부분이 생겼습니다.


25, 50과 75 부분에서 순차적으로 복제본이 생기게 되는데요. 한 베이스 섹션 당 25개의 DNA 베이스가 있으니 이 방법을 쓰면 하나의 데이터 섹션이 총 4번 겹치게 됩니다. 동일한 복제본이 4 군데 생기니 100분의 1의 실수 확률을 확연히 줄일 수 있게 됩니다. 

출처: giphy.com
출처: Nature
Goldman의 연구팀은 코드를 3번 변환시키고 DNA의 정보 복사본을 만듭니다
향후 전망

데이터 저장 기기를 만드는 Spectra Logic사의 Matt Starr 최고 기술 책임자는 이 DNA 기술이 너무 먼 미래의 얘기라고 말하기도 했습니다. 당장 활용하기 어려운 수준이라는 건데요.


이 기술은 이제 막 연구가 활발히 이뤄지는 중입니다. 향후 취약점을 보완한다면 영구적인 저장 장치로 활용도가 높을 것으로 전망됩니다. 스위스의 ETH Zurich Communication Technology Laboratory 소속 Reinhard Heckel 연구원은 <로이터> 인터뷰에서 "인류의 총체적 지식이 인공적 DNA에 담긴다면 미래 세대에게 정보 보안이 철저한 환경이 만들어질 것"이라고 평했습니다.


이 콘텐츠에 대해 어떻게 생각하시나요?