염기서열 결정 – Sequencing D NA의

 DNA의 1차구조는 어떻게 알까-DNA sequencing

어려운 주제다. 독자의 요청도 있고, 방법이 기발하고 흥미로워 유전학 발전에 획기적 공헌을 한 역사적 위업이므로 감히 독자들에게 알리기 위해 무모한 도전을 해보자.

DNA sequncing은 유전자의 염기서열을 정하는다는 뜻이다. 복잡하고 어렵기 때문에 설명을 할 수 있을지 모르겠다. 개발된 지 불과 40년 정도다. 필자가 학창시절이다. 요즘은 누구나 할 수 있을 정도로 쉬워졌다. 수십억 개의 염기로 이뤄진 인간의 DNA까지 구조가 밝혀졌지만 이를 인간게놈프로젝트로 수 십 십억달러에 수십 명이 덤벼들어 몇 년씩 떠들었다. 그렇게 어렵게 결정한 것은 초기라고 하지만 지금은 매우 쉬워졌다. 불과 몇 달 정도의 돈이라도 2천만원만 들이면 가능하다. 이제 많은 생물의 모든 게놈이 밝혀지고 있다면 개나 소나 모두 실험이다

처음 나온 방법은 1977년 개발된 것으로 맥삼-길버트법(Maxam-Gilbert sequencing)이라는 화학적 방법이다. 이 방법은 방사성 표지를 이용하여 기술적으로 복잡하다는 이유로 광범위하게 사용할 수 없었다. 초기에는 획기적인 방법으로 각광을 받아 노벨상을 수상할 정도였지만 후속으로 손쉬운 다음 방법이 나와 사장되는 불운을 겪었다.

후속법은 사슬종료법(Chain-termination methods)으로 역시 1977년 프레데릭 생거(Fredrick Sanger)가 개발해 염기서열분석법(Sanger sequencing method)으로도 불린다. 이는 효소를 이용한 생화학적 방법으로 비교적 간단하고 신뢰도가 높기 때문에 현재는 예외 없이 이 방법을 사용한다. 당연히 노벨상을 받았다. 맥삼 길버트법은 현재 사용하지 않기 때문에 생략하고 생어법을 설명하기로 하자.

우선 기초부터 설명하자. 이것을 알아야 이해할 수 있기 때문이다.

DNA: Deoxyribo Nucleic Acid(데옥시리보 핵산)의 약어. Deoxyribo는 Ribose라는 탄소가 5개인 5탄당 2번 탄소에 산소가 하나 떨어졌다는 뜻인데 나중에 설명한다.RNA; Ribo Nucleic Acid(리보핵산)의 약어.DNA는 달이 Ribose에 산소가 그대로 있다.

DNA의 구조;아래의 구조를 먼저 자세히 설명한다.

세 가지 표현이지만 이해를 돕기 위해 다른 형태로 만든 것이다. DNA는 2중나선 구조로 돼 것을 알고 있다. 두 개가 일정한 패턴으로 얽혀 있다는 것이다. 둘은 약한 결합으로 붙어 있는데 이를 수소결합이라고 한다. 수소 결합은 염기끼리 쌍을 이룬다. G와 C 사이는 3개의 수소 결합, A와 T 사이는 2개로 돼 있는데 당연히 G와 C 사이의 결합이 좀 강하다. 이런 성질이 나중에 DNA를 풀 때(melting or denaturing) 중요한 요소로 작용한다.당연히 G와 C의 함량이 높은 DNA는 melting point도 높아진다.

힘줄의 염기(base)는 인산과 ribose를 통해 실처럼 연결된다. 핵산의 구성단위인 핵산염기에는 5종류가 있다. 보통 G, C, A, T, U로 표시하는데 이때 RNA는 T 대신 U를 가지고 있다.

실제로는 염기로만 돼 있는 것이 아니라 ribose와 인산이 들어 있는데 이를 핵산의 구성성분(building block)인 nucleotide라고 한다. 그 구조를 살펴보자.

dATP;deoxy adenosine mon ophosphate 여기서 adenine은 핵산염기, sugar는 ribose인데, 아래에 붙어 있는 OH가 핵산의 중합에 중요한 역할을 한다. 앞의 구조도에 3, 5라는 숫자가 보일 것이다. 이 숫자는 ribose의 탄소번호를 말한다. 즉 3번 탄소의 OH에 다음에 오는 nucleotide의 5’에 붙어 있는 인산이 서로 결합되어 있다는 뜻이다. 즉, 3’蕂5’방향으로 연결되어 있다는 뜻.DNA의 2개 가운데, 상대측은 방향이 거꾸로 되어 있어 5″蕂3″이라고 표시한다. 여기서 위의 nucleotide에는 종류가 몇 가지 있다. 인산이 없는 구조를 nucleoside, 인산이 있는 것을 nucleotide라고 하는데, 여기에도 인산이 하나 붙은(ribose의 5번 탄소) 것을 염기가 adenine인 경우에는 adenine monophosphate(AMP), 2개면 adenine diphosphate(ADP).

DNA의 복제, 합성은 어떻게 일어나는지 보자.

DNA 2개가 녹아 효소(D NA polymerase)가 상대 사슬을 각각 복제해 2배로 늘린다. 이때 중요한 것은 이 효소는 합성방향이 반드시 5’蕂3’이라는 것. 따라서 반대방향은 방향이 반대이므로 연속으로 합성을 할 수 없고, 따로따로 합성하여 붙이는 방식으로 진행된다. 빨간색 소편이 primer 인데, PCR에서도 설명했듯이 합성 시작점에는 반드시 짧은 oligonucleotide가 필요하기 때문이다.

그럼 본론으로 DNA sequencing에 들어가자. 많이 돌아다녔어

우선 sequencing하려는 DNA을 순수하게 정제 분리해야 하는 과정이 필요하다. 예로 인간 인슐린 유전자의 경우 인간의 거대한 게놈 안에서 이놈만을 분리해야 하는 어려움이 있긴 하지만 기발한 방법이 많이 개발되고 있어 그다지 어렵지 않았다. 분리 정제한 DNA가 양이 적은 경우는 PCR로 증폭하여 sequencing 한다.

그럼, 사이즈의 DNA가 있다고 하자. 한 번에 할 수 있는 DNA 크기는 1000개 이하의 base가 되는 것이 좋다. 그 이상이 되면 정확도가 상당히 떨어진다.

예로서 상기의 샘플이 있다고 한다. 당연히 상대의 가시도 있지만(표시하지 않음) DNA polymerase는 5’蕂3방향으로만 합성하기 때문에 두 가닥에 열을 가해 한 가닥에 melting시켜 합성하면 이 책의 상보적인 실만 합성되므로 신경 쓸 필요는 없다.

4개의 시험관을 준비하고, 각각 효소, 기질(dATP, dGTP, dCTP), primer, 완충액을 공통으로 넣는다. 여기서 기질의 d라고 하는 것은, 전술한 것처럼 ribose의 2번의 위치에 있는 OH에 O가 없다는 의미이다. 또 반응의 종결(termination)을 위해 이상하고 비정상적인 기질을 별도로 소량 넣는다. 이것이 기발한 기법이다. 즉 ddATP 등의 di-deoxy(double deoxy)로 되어 있는 것을 넣는다는 것이다. 여기서 DNA 안에는 인산이 하나인 dAMP가 들어 있는데, 왜 굳이 인상이 3개인 dATP를 사용하는가 하는 의문이 생길 수도 있다. 그것은 효소가 두 개의 인산기를 가수분해하면서 나오는 에너지를 결합에 이용하기 때문이다.

1번 시험관, 4개의 기질 중 dATP와 동시에 ddATP가 들어 있는 경우, 효소는 위구조의 C에는 상보염기인 G를 갖고, 다음으로 A의 상보인 T, 다음은 T의 상보 A, 다음은 G의 상보 C라는 식으로 합성한다. 이 때, A가 들어가는 장소에 같은 소량 존재하는 기질 중 이상한 ddATP가 들어가는 경우가 확률적으로 생긴다. 그러면, ribose의 3'에 OH가 없기 때문에, 다음의 기질의 인산을 결합시킬 수 없게 된다. 그러면, 합성은 CAT에서 멈추고 GTA*가 합성된다. 그런데도, 용케 이것을 피해 dATP가 들어갔을 경우는, 반응이 계속해 진행되지만, 다음의 T에서 같은 현상이 일어난다. 이때는 CATGT로 끝난다 합성된 다발은 GTCCA*이다. 다음으로, 그 다음의 T가 있는 곳에서 같은 현상이 나타나고, GTACCATTCGCA*가 합성된다. 다른 기질의 경우도 마찬가지다. 그러면 여러 가지 크기의 DNA가 합성되는 결과가 나온다. 에 표시해 보면 다음과 같은 여러 개의 DNA가 합성되어 있을 것이다.

일정 시간 반응시켜 합성된 타바라 DNA를 분자량 크기에 따라 분리하는 작업을 한다. 분리작업은 polyacryamide gel에서 전기영동으로 한다. 세밀한 눈금으로 염기 하나라도 다르면 분리된다. 4가지 반응산물을 겔의 각 (lane)에 넣어 전기영동하면 그림처럼 깔끔하게 분리된다. 위로 가는(영동의 거리가 갈수록) 분자량은 적은 DNA 조각이다. 겔이 길수록 확인이 쉽고 크기가 큰 DNA의 sequencing이 가능하다. 최대 염기수 1000개 이상은 밴드 간격이 좁고 겹치는 경우가 많아 읽기가 어렵다.

과거에는 기질인산에 방선성으로 표식을 해 영동겔을 필름에 감광해 확인했으나 최근에는 ddATP 등 이상한 기질에는 색소를 입혀 확인 작업을 쉽게 하기도 한다. 최근에는 겔에서 분리된 DNA 사슬을 자동으로 읽어내는 기계도 있다. 요즘은 DNA만 분리해주면 회사에서 바로 sequencing해준다. 이런 일은 고급 인력이 하는 작업이 아니라는 인식이 강하다.

이런 DNA의 sequencin g는 우리에게 많은 정보를 제공한다. 생물종의 확인, 비교, 돌연변이 여부, 변이체 유도, GMO 제작, 인공 유전자 합성 등 그 용도는 무한하다.

용장했다. 더 이상 쉽게 쓸 재주가 없다. 나의 한계다. 대충 옛 기억을 더듬어 썼지만 이해가 가지 않는 부분이 있다면 질문하라.