RNA를 시퀀싱하는 걸 RNA-seq이라고 부릅니다. 그런데 RNA-seq할 때 RNA를 시퀀싱하지는 않죠. (엥 이게 뭔 소리.?) 요즘 시퀀싱 업계 최고의 떠오르는 별 옥스포드 나노포어가 “최초로” RNA를 대규모로 시퀀싱하는 기술을 만들어서 프리프린트를 냈습니다. 어떤 일이 있었는지, 어떤 건지 한 번 알아봅시다~!
RNA-seq은 보통 여러 RNA의 양을 재거나, 시작이 어딘지, 끝이 어딘지, 스플라이싱이 어떻게 되는지 볼 때 씁니다. RNA는 단백질 결합이나 자르기 붙이기 구조 바꾸기 등 변화무쌍한 녀석이라, 여러 실험적 전처리를 거쳐서 온갖 변형된 RNA-seq이 나왔죠. RIP-seq, CLIP-seq, SHAPE-seq, TAIL-seq, small RNA-seq, ribosome profiling, 3P-seq, lariat sequencing, degradome-seq 등 아주 특징적으로 다른 놈들만 쳐도 금세 10개가 넘어갑니다.
그런데, 알고 보면 이 수많은 방법 중에 RNA를 시퀀싱하는 놈은 하나도 없습니다. 다 cDNA를 만들어서 증폭해서 DNA를 시퀀싱하죠. cDNA나 RNA나 결국 그 놈이 그 놈 아닌가 싶지마는, 변환 과정에 꽤 많은 정보를 잃어버립니다. 우선, 증폭. RNA에서 DNA를 만들어서 시퀀싱하기 좋은 형태로 딱 만들어주는 “라이브러리 프렙” 과정은 효율이 낮은 스텝이 많이 껴 있습니다. 그래서 증폭 없이는 기존 2세대 시퀀서는 거의 깨끗하게 돌릴 수 없는데요. 문제는 어떤 놈은 100배로 증폭되는 사이, 다른 놈들은 2배로도 증폭이 안 되는 일도 흔하다는 거죠. 이 문제가 가장 심각한 마이크로RNA 시퀀싱에선, 다른 RNA 2가지를 똑같은 양으로 넣고 라이브러리를 만들어도 결과는 100배 넘게 차이 나는 경우가 뭐 말할 필요도 없이 늘 있는 일입니다.
그리고, DNA로 변환하는 과정 중에 RNA의 화학적 수식 정보를 다 잃어버립니다. 후성전사체(epitranscriptome)가 요새 RNA쪽에서 핫한 키워드인데요. 최근 3년 간 mRNA에서도 N6-methyladenosine, N1-methyladenosine, pseudouridine, 5-methylcytosine이 발견되고 논문이 쑥쑥 잘 나오면서 RNA쟁이들이 수식된 RNA를 어떻게든 보려고 노력을 많이 하고 있죠. 그런데 DNA로 변환을 하게되면 그냥 밋밋한 A, T, C가 돼 버려서 재미가 없어집니다. 궁색하게 전처리를 어떻게든 해야 하는데 그래도 썩 마음에 들지는 않죠.
RNA쟁이들은 오랫동안 RNA를 있는 그대로 처음부터 끝까지 쭉쭉 읽어내면 얼마나 좋을까 하고 꿈꿔왔습니다. 3세대 시퀀서 중 가장 먼저 떴었던 Helicos와 PacBio도 그래서 direct RNA sequencing을 처음부터 그렇게 밀었죠. 리드 길이가 긴 것은 좋았지만, 역전사는 둘 다 피할 수 없었습니다. PacBio에서 methyladenosine을 구분할 수 있다는 논문도 몇 개 나오긴 했지만, 하기도 어려운데다 구별도 잘 안 되었습니다.
짜잔. 그래서 역전사가 필요없는 나노포어에서 멋진 기술을 내놓았습니다. 10명이 넘는 꽤 큰 팀을 오랫동안 운용해서 재작년부터 정보를 조금씩 흘리기 시작했죠. 올해 6월에는 direct RNA sequencing의 베타 프로그램을 시작했습니다. 8월에는 프리프린트 서버인 bioRxiv에 논문을 올렸습니다. 사실 논문이라고 부르기는 좀 부끄럽고 그냥 광고 내지 찜 정도로 봐 줄 수 있겠습니다. 메쏘드 부분이 전혀 구체적이지 않고, 대부분 정보를 숨긴데다가, 성능 평가 부분도 그냥 두루뭉술하게 퉁치고 지나가버렸습니다. 그래도 새로 공개된 정보가 많으니 한 번 자세히 뜯어봅시다~
나노포어는 다른 시퀀싱 방법들과 달리 방향을 마음대로 할 수 있습니다. 5′부터 읽을 수도 있고 3′끝 부터 읽을 수도 있죠. 방향에 따라 라이브러리 만드는 방법이 전혀 달라지고 나오는 시그널도 전혀 다르니 어디서부터 읽을지 잘 골라야 하죠. 상용화된 DNA 시퀀싱 키트에서는 5′부터 읽게 되어있는데, RNA sequencing에서도 작년 5월에 발표된 자료까지만 해도 5′부터 읽게 되어 있다가, 이번에 3′부터 읽는 것으로 바뀌었습니다. 아직 최종적으로 상용화 버전에서 어느 방향을 쓸지는 확정되지는 않았는데요. 5′부터 읽는 게 엄청나게 시그널 특성이 좋지 않는 한, 그냥 3′->5′을 유지할 가능성이 높습니다. Direct RNA sequencing에서는 양쪽 끝 중에 한 군데만 어댑터를 붙이면 되는데요, 5′끝보다 3′끝이 쓸 수 있는 무기(효소)도 훨씬 많고 5′캡이 막아주는 덕분에 간단한 프로토콜 만들기가 쉽죠. 그래서 이번 논문에서 쓰는 프로토콜은 이렇게 어댑터를 붙입니다.
이렇게 붙여서 나노포어 플로우셀에 넣으면 회색 반지모양으로 그려진 단백질이 RNA쪽 가닥을 잡고 조금씩 놓아주면서 나노포어에 통과시켜주게 됩니다. 이 단백질을 나노포어에서는 모터 단백질(motor protein)이라고 부르는데요. 모터 단백질을 쓰지 않으면 DNA나 RNA가 신호를 잡을 수 없을 정도로 너무 빨리 통과해버리기 때문에 신호 분석이 불가능합니다. 그렇다고 무한정 느리게 잡고 있으면 단일가닥 DNA나 RNA가 스스로 접히는 2차 구조나 랜덤하게 움직이는 신호까지 잡히는데다 일정 시간동안 통과하는 DNA/RNA 개수도 줄어들게 됩니다. 그래서 너무 빠르지도 않고 너무 느리지도 않은 기가 막힌 속도로 살짝 잡고 놓아주는 게 중요합니다. DNA를 5′에서 3′로 보내면서 살살 놓아주는 것과 RNA를 3′에서 5′로 보내면서 살살 놓아주는 것은 전혀 다른 얘기라서, 이번엔 이 모터 단백질도 바꿨다고 하네요. 하지만 구체적인 정체는 숨기고 있습니다.
자 이제 이렇게 시퀀싱이 됐으면, 베이스콜링 정확도는 얼마나 될지, RNA 화학적 수식은 잘 잡을 수 있는지가 모든 사람이 궁금해 하는 지점이 됩니다. 옥스포드 나노포어 R9의 DNA 시퀀싱 정확도는 1번 읽었을 때 85% 정도, 앞뒤로 2번 읽었을 때 95%로 알려져 있습니다. 자 그럼 direct RNA는…….? 대략 80% 된다고 합니다. -O-; 그런데 좀 그런게, 전체 리드 대상이 아니라 아주 전형적인 예라면서 특정 리드 1개만 보여주고 정확도를 80%라고 추정하고 있습니다. 어디서 사기를.. ㅋㅋ 전체로는 GAPDH 리드들을 모두 모아서 대략 96% 정도 시퀀스가 서로 같은 isoform 둘 중에 어느 것인지 매핑하면, 하나로 거의 확실히 구분할 수 있을 만큼은 된다고 합니다. (ㅎㅎㅎㅎ)
아직은 확실한 레퍼런스 DNA 또는 전사체 레퍼런스가 있을 때 아니면 쓰기가 어렵겠는데요. 그래도 열심히 align하면 대충 스플라이싱 구조 정도는 알아볼 수 있을 것 같습니다. 그렇다면 화학적 수식이 있는 것들은 구분이 될까요? 이거라도 잘 돼야 할텐데요.
다행히도 m6A는 위에서처럼 구분이 아주 잘 되네요. 나노포어에 통과하고 있는 베이스 외에 주변에 있는 녀석들도 전기전도도에 영향을 좀 미치다보니, 나노포어 신호는 주변 서열 영향을 많이 받는데요. 다른 서열 사이에 껴 있는 m6A도 구분이 잘 된다면 좋겠네요. 5월에 옥스포드 나노포어 사용자 모임(?)인 런던 콜링에서 Mark Akeson이 tRNA의 경우에는 알고리즘을 열심히 트레이닝하면 tRNA에 있는 각종 다양한 수식도 구분할 수 있다는 걸 보여줬으니, 이런 저런 데이터를 계속 쌓다보면 mRNA에서 다른 수식들도 잘 다룰 수 있게 되지 않을까 봅니다.
옥스포드 나노포어 R9의 주요 업그레이드 중에 딥 러닝 알고리즘(RNN)을 도입한 것이 있습니다. 이번 direct RNA sequencing에서는 RNN 대신 기존에 쓰던 HMM을 썼기 때문에, 베이스콜링 정확도나 화학적 수식 모두 개선의 여지가 있습니다. 아직 트레이닝도 다양한 상황에서 충분히 되지는 않았구요. 아마도 엔드 유저 입장에서 완전히 베이스콜링 된 것을 쓰자면 시간이 꽤 더 걸리겠지만, 신호 수준에서 분석하는 걸로는 지금도 RNA쟁이들에게 좋은 무기로 쓰일 수 있을 것 같네요.
참고로 (혹시나 궁금한 분이 있을까봐) 아직 옥스포드 나노포어는 IPO를 하지 않았습니다. (투자는 거의 20년에 걸쳐서 엄청 받았죠. ㅋㅋ)