동물 RNAi 발견 20년 만에 첫 약이 탄생하다

사람의 병은 어떤식으로든 단백질과 관련돼 있는 게 많습니다. 단백질은 모양이 중요하구요. 약은 단백질 사이에 어떻게든 비집고 들어가서 다른 단백질에 못 붙게 막아버린다거나, 단백질 모양을 바꿔버린다거나, 화학적 성질을 바꾸는 등, 모양에 딱 맞춰서 동작합니다. 아무데나 붙어서 엉뚱한 일을 하면 안 되니까요.

옛날부터 오랫동안 사람들은 미생물이 자기들끼리 싸우다가 만들어낸 화학물질을 항생제로 활용하고, 우연히 발견된 여러가지 천연물에서 순수정제한 여러 물질들을 쓰기도 했습니다. 사람이 단백질 모양을 보고 설계한게 아니라, 효과가 있는 물질을 찾은거죠. 그러다, 글리벡이라는 판을 바꾸는 약이 등장했습니다. 아예 단백질 모양을 보고 거기에 딱 맞는 화학물질을 설계해서 약으로 만들어버린거죠. 효과도 아주 좋아서, 덕분에 만성 골수성 백혈병 환자의 5년 생존률이 31%에서 59%로 올라갔습니다.


BCR-ABL 퓨전 단백질(초록색)과 글리벡(Imatinib; 빨간색) – from wikimedia, public domain

이제 단백질을 없애서 낫는 병이라면, 아무거나 단백질 구조만 있으면 무슨 약이든 만들 수 있게 됐…..으면 좋았겠지만.. 생각보다 단백질 구조는 그렇게 호락호락하지 않습니다. 구조를 정확하게 아는 것도 어려울 뿐더러, 거기에 딱 맞고 다른 곳에는 안 맞아서 엉뚱한 효과가 없는 쪼끄만 화학 물질을 만들기란 쉽지 않았죠. 요새 유행하는 항체 약도 한 방법이지만, 나름대로의 애로사항이 많습니다.

아니 그런데, 단백질은 어차피 RNA를 보고 만들고, RNA는 A, C, G, U 4가지 알파벳만 쓰는 그냥 1차원 문자열인 셈인데, RNA를 인식해서 없애면 결국 단백질을 없앨 수 있으니 훨씬 쉬운 것 아닌가요? 2000년에 동물 siRNA의 기본 원리를 발견한, 지금은 전설급인 과학자들 David Bartel, Phil Zamore, Thomas Tuschl과, 원래부터 전설이었던 Phil Sharp은 논문도 내기 전 부터 어디 쓰게 될지 감이 딱 와서 특허도 착착 바로 딱 내고, 회사도 차렸습니다. Alnylam Pharmaceuticals라고 멋진 이름도 지었습니다. RNA 서열은 단백질 구조에 비해 알아내기도 쉽고, 설계도 그냥 메모장 띄워놓고 해도 몇 분이면 할 수 있을 정도로 아주 쉽습니다. 모든 병을 치료할 수 있을 것만 같은 장밋빛 미래가 쫙 펼쳐졌죠!


siRNA(윗쪽 굵은 선)가 mRNA(아래 긴 선)에 붙어서 탁! 하고 부심. CC BY-SA 4.0 by Singh135

하지만 인생은 늘 쉽지 않습니다. 20~22글자 서열을 딱 인식해서 정확하게 딱 잘라버릴 것만 같았던 siRNA가 세포 안에만 들어가면 엉뚱한 친구들을 건드리기 시작합니다. 이것을 생물학자들은 오프타겟 효과라고 부릅니다. 이 오프타겟 효과 때문에 아주 골치가 아파집니다. A를 없애려고 딱 넣었더니 B, C, D, E, F, G, H, I도 서열이 조금 비슷하다고 같이 없어져버리고, 걔네들이 줄어드니까 또 다른 것들이 연달아 바뀌고.. 아주 정신이 없어졌습니다. 수많은 연구자들이 siRNA의 오프타겟 효과 때문에 인생의 적지않은 부분을 날려버렸습니다. -.-

게다가 예쁜꼬마선충이라는 귀여운 이름의 벌레와는 달리, 사람은 RNA을 정성들여서 먹어봐야 피에 들어가기 전에 다 소화돼버립니다. RNA는 꽤 많은 바이러스의 유전물질이기도 하기 때문에, 피에서도 그냥 둥둥 떠 다니면 이놈 바이러스 잡아라 하고 집중 공격을 받습니다. 먹어도 안 되고 주사해도 안 되면 어찌 하란 말인가 하는 문제가 또 있었습니다.

다시, 세상을 열심히 사는 과학자들이 나설 차례입니다. siRNA가 멋지게 좀 더 원하는 일만 하도록, 피에 딱 찔러 넣으면 멀쩡히 오랫동안 버티고, 세포 안으로도 쉽게 쏙 들어가도록 수많은 변형을 시험해 봅니다. 하지만, 거의 15년 동안 대형제약회사들을 포함한 많은 투자자들이 돈을 쏟아부었지만, 싹이 노란 채로 더욱 더 노래지기만 하고 있었습니다. 그 와중에 다행히도 몇 개 성공 가능성이 보이는 약이 등장했습니다.


TTR 단백질 4개가 붙어서 생긴 정상 구조 (1번), 혼자 떨어진 TTR (2번), 어쩌다 잘못 접힌 TTR (3번), 잘못 접힌 TTR이 마구 붙어서 거대한 아밀로이드 원섬유가 돼 버린 구조 (4번) – (c) J. Kelly, The Scripps Research Institute.

자잔~ 바로 며칠 전에 임상시험 거의 마지막 단계인 3상을 성공한 파티사란(patisiran)입니다. 파티사란은 가족성 아밀로이드증 (hATTR)이라는 희귀 유전질환을 치료하는 약입니다. 환자들은 TTR이라는 단백질에 변이가 있어서, 이상한 모양으로 꼬여서 세포에 계속 쌓이기만 하고 없어지지 않습니다. 그 결과, 녹내장, 치매, 발작, 부정맥, 신부전, 부종, 요로감염, 이한증 등 거의 온몸에서 문제가 생겨서 대체로 오래 살지 못하고, 살더라도 삶의 질이 극도로 떨어지는 심각한 상황이 됩니다. 파티사란은 TTR 단백질을 만드는 mRNA를 없애도록 설계된 siRNA 약입니다. 멋지게 지방 나노입자 (lipid nanoparticle)에 쌌고, 좀 더 안정성있게 식물에서 많이 사용하는 2′-O-methylation이라는 변형 RNA 화학구조도 도입했습니다. 그 결과 3상에서 p-value 0.00001로 증상 개선에 효과 있다는 결론이 나왔습니다!

Alnylam은 단박에 주가가 40%오르고 hATTR 환자들은 처음으로 쓸만한 약을 얻었습니다. 아마도 약값은 무진장 비싸겠지만 말이죠;;

~.~.~.~.~.~.~.~,~.~.~.~.~.~.~.~,~.~.~.~.~.~.~.~,~.~.~.~.~.~.~.~

Patisiran은 TTR 3′ UTR을 targeting하는 siRNA입니다. 요즘 나오는 사이보그 수준의 engineering이 들어가지 않은, 보통 우리가 실험에 많이 쓰는 19-mer duplex 뒤에 dT-dT 붙어있는 전통적인 siRNA 구조입니다. mRNA target과 binding affinity도 높이고 stability도 올리는 목적으로 2′-O-methylation이 guide에 2개, passenger에 9개 되어 있습니다. 올 초에 출시된 oligonucleotide drug인 SPINRAZA가 모든 2′ 위치에 평소에 연구용으로는 거의 보기 힘든 2-methoxyethyl을 붙이고, backbone도 O 하나를 S로 교체한 것에 비해 상당히 단순합니다.

5′-------A--U-G--G--A--A--Um-A--C-U-C-U-U-G--G--U-Um-A--C-dT-dT-3′
3′-dT-dT-Um-A-Cm-Cm-Um-Um-A--Um-G-A-G-A-A-Cm-Cm-A-A--Um-5′

보통 off-target 효과를 분산해서 전체적으로 줄이려고 siRNA를 여러 개 짜서 섞어서 쓰는 전략도 많이 쓰는데, patisiran은 약이라서 그런지 딱 1개만 썼네요. Target 지역은 stop codon에서 50nt 정도 떨어진 지역입니다. 아무래도 TTR mutation이 주된 2-3가지 타입 외에도 여러가지가 있고, 노인성 아밀로이드증은 아예 wild-type이 쌓이기도 하니까, 최대한 모든 TTR을 커버하려는 것 같습니다. TTR 3′ UTR 앞 쪽은 그 흔한 SNP도 보고된 것이 거의 없네요.


TTR stop codon 근방과 3′ UTR 지역. 맨 위 YourSeq으로 표시된 부분이 patisiran이 타겟하는 부분. (by Hyeshik, CC BY-SA 4.0)

patisiran이 인식하는 부위는 딱 siRNA 디자인의 정석에 해당하는 자리입니다. Seed 서열이 off-target 효과에 가장 결정적인데요, patisiran의 경우는 UGGAAU입니다. 기존의 많이 발현되는 miRNA 중에 완벽하게 같은 seed를 갖고 있는 것이 없고, 1개 차이 나는 것 중에서도 많이 발현되는 녀석들은 passenger strand 뿐입니다.


patisiran과 seed가 전체 또는 1nt 차이로 겹치는 miRNA들. passenger도 포함되어 있으니 주의. (by Hyeshik, CC BY-SA 4.0)

그리고, target 지역의 2차 구조가 문맥에 관계 없이 어떤 상황이더라도 비슷한 구조로 딱 접혀있어야 dose 조절이나 약동학적 분석이 쉬워질텐데요. 17bp 정도 되는 stem loop에 딱 siRNA guide가 맞게 디자인 됐습니다. loop 부분과 bulge, 2′-O-Me가 있으니까 열역학적으로도 충분히 stem loop을 풀고 binding할 수도 있을 것 같네요.


TTR 3′ UTR 일부. patisiran에 상보적인 부분이 대문자로 표시되어 있음. (by Hyeshik, CC BY-SA 4.0)

Alnylam은 똑같은 TTR을 타겟으로 다른 chemical modification과 다른 delivery agent로도 임상시험을 병렬로 진행했었는데, 지금은 모두 중단되었다고 합니다. 모든 측면에서 더 전통적인 방법으로 만든 게 결국 더 성공적이었네요~ 활발히 개발되고 있는 다른 siRNA drug들도 앞으로 끝까지 살아남는 녀석들이 많기를 기원해 봅니다. ^_^

옥스포드 나노포어 12월 제품 업데이트

2007년 스티브 잡스 발표 기억하시나요? 화면에 전화기, 터치스크린 아이팟, 인터넷 장비 셋을 띄워놓고 빙글빙글 돌리면서 “Are you getting it?” 하다가 아이폰을 뿅! 하고 발표한 그 맥월드 키노트 말이죠. 이 키노트 이후로는 IT에 크게 관심 없는 사람도 애플이 신제품에 대해 발표를 할 때마다 괜히 설레며 새벽에 보기도 하고, 아침에 기사 검색도 해 보곤 합니다. 요새 바이오텍 업계에서 그런 회사가 하나 등장했습니다. 바로 DNA시퀀서를 만드는 옥스포드 나노포어 (ONT)입니다. 이 회사에서 제품 업데이트를 발표할 때마다 수천 명이 라이브스트림으로 보고, 트위터가 떠들썩해집니다. 아직 엔드유저 제품도 아닌 걸 고려하면 굉장한 반응입니다.

ONT는 보통 분기당 한 번씩 제품 업데이트를 발표하고 있습니다. 업데이트가 너무 빨라서 관심을 기울이고 있어도 따라가기 힘들 지경인데요. 신제품 소식을 듣고 주문하고 받아서 실험하고 잠깐 분석 좀 하다가, 다음 실험을 위해 또 주문하려고 가 보면 전에 주문했던 버전은 벌써 단종되고 없을 정도입니다. -.- 얼마 전 12월 2일까지 뉴욕에서 열린 NanoporeConf에서도 아주 재미있는 소식을 많이 발표했습니다. 간단히 요점만 줄여서 소식 전해드립니다.

PromethION

ONT의 가장 큰 시퀀서 제품인 PromethION이 드디어 첫 고객들한테 발송됐습니다. 역시 첫 고객들은 충성스러워서 다들 트위터에 자랑하고 돌려보기도 전에 벌써 대단한 데이터를 얻은 것처럼 흥분했더군요. ㅎㅎ 새로 공개된 스펙은 다음과 같습니다. 플로우 셀 수는 48개가 됐고요. 플로우 셀 마다 6000 채널 시퀀싱이 가능합니다. 현재 MinION 플로우셀은 512채널에 2048웰 이니까, 플로우 셀 기준으로 비교하면 대략 MinION의 최대 600배 쓰루풋을 낸다고 보면 되겠습니다. 그리고, 이 정도 채널 수가 되면 USB 3.0으로는 도저히 수용 불가능해서, 내장 컴퓨터가 들어가 있습니다. 여기에는 FPGA기반 베이스콜링 가속기가 포함된다고 하는군요. 그리고 가격은 연간 사용료 15000달러로 정했다고 합니다. 얼마 전에 ONT에서는 MinION은 기계 값은 완전 무료, PromethION은 기계 값은 무료로 하고 사용료만 받겠다고 발표했었습니다.

새 시퀀싱 케미스트리: 1D²

지난 3월에 CsgG 포어를 도입하면서 정확도가 드디어 제정신으로 쓸 수 있는 수준까지 올라왔는데요. 그 후에도 CsgG 뮤턴트를 계속 만들면서 더 정확하고 빠르게 개선하고 있다고 합니다. 지금 시험 중인 뮤턴트 하나는 기존 R9 포어보다 거의 5배 정도 더 잘 DNA가 들어간다고 하는군요. (지나가는 속도는 그대로이고 포어가 비어있는 시간이 줄어 듦)

기존의 1D, 2D 시퀀싱에 새로 1D² 시퀀싱이 추가됐습니다. 원래 헤어핀 어댑터를 이용해서 끝에서 한 바퀴 휙 돌아 2번 시퀀싱 하는 2D가 2번째 가닥의 시퀀싱 품질이 매우 안 좋았었는데요, 양쪽 모두 기존에 1D에서 쓰던 Y 어댑터를 쓰면서 모터 단백질과 테더링을 개선해서 첫 번째 가닥을 읽고 다 읽은 가닥이 떨어져 나간 뒤에 바로 반대쪽 상보 가닥이 들어가도록 했다고 합니다. 원래 2D에서 90-97%까지 정확도가 왔다 갔다했던 게, 1D²에서는 95-97% 정도로 아주 고르게 나오게 됐습니다. 따로 언급은 안 됐지만 라이브러리 프렙도 1D와 거의 같을 것이기 때문에 시간도 절약되고, 손실도 줄고, 그동안은 2D에 쓸 수 없었던 tagmentation 기반의 간단한 프렙 장치들도 쓸 수 있게 될 것 같네요.

베이스콜링 업그레이드: 긴 호모폴리머

올해 초까지 HMM을 쓰다가 RNN으로 바뀐 뒤 성능이 크게 올라갔었는데요. 구조상 HMM이나 RNN 기반 베이스콜러 모두 5nt 초과 호모폴리머는 베이스콜링이 불가능했습니다. 이 문제를 대폭 개선한 새로운 Transducer라는 베이스콜러가 처음 소개됐습니다. 일루미나 시퀀싱 베이스콜러 중에 베이스콜링이 어려운 라이브러리들을 잘 처리해줘서 유명했던 AYB를 만든 Tim Massingham이 ONT에 가더니만 결국 전공을 살렸네요. ㅋㅋ 10nt 정도 되는 homopolyer를 시험해 본 결과 30% 정도 길이가 짧아지는 경향은 있지만 거의 선형적으로 비례관계가 있도록 재고는 있다고 합니다. 조금 더 개선 되면 일반 배포한다고 하네요.

새로운 저가형 플로우셀: Flongle

MinION이 기계는 공짜인데, 플로우셀이 너무 비싸죠. 그래서 전자장치를 모두 계속 쓸 수 있는 어댑터로 빼 버리고, 막과 단백질, 플라이스틱만 남겨놓은 소형 플로우셀을 새로 만들었다고 합니다. 휴대전화용 시퀀서인 SmidgION 플로우셀과 똑같은 거라고 하네요. 가격은 클로닝할 때 플라스미드 시퀀싱 하는 가격과 비교할 수 있을 정도로 맞춘다고 하니, 쓰루풋이 반 정도로 낮긴 하지만 기존의 MinION 플로우셀을 완전히 대체할 수도 있을 것 같습니다.

피를 넣으면 라이브러리가 돼서 나오는 필터 팁: Zumbador

지난 5월 런던콜링에서 엄청 떠들썩하게 발표됐던 Zumbador가 좀 더 구체적인 모습을 드러냈습니다. 라이브러리 프렙 전 과정을 실온에서 할 수 있다고 하고요. Tagmentation기반 1D 프로토콜로 만든다고 합니다. P1000 팁보다도 작은 크기로, 위에 피를 떨어뜨리면, 아래로 라이브러리가 나옵니다. ㅎㅎㅎ 그리고, 피 외에 다른 곳에서도 DNA나 RNA를 뽑을 수 있도록 bead beater라는 초소형 장치를 또 새로 공개했습니다. 식물 잎이나 씨앗, 섬유 같은 곳에서 아무 것도 없이 물만 더 있으면 DNA를 뽑아서 바로 Zumbador에 넣어서 라이브러리를 만들 수 있다고 하네요. 낯선 곳에 갔는데 뭔가 의심스러운 것이 있으면 바로 시퀀싱 해보고 안심(?)할 수 있다고 하는군요. ㅎㅎ 음식점에 가서 원산지를 믿을 수 없거나 청결을 믿을 수 없는 음식 먹기 전에 시퀀싱 해 보는 사람도 나올 것 같습니다. -o-;

선택적 시퀀싱

지난번에 공개했던 Cas9 기반 enrichment가 좀 더 구체적으로 공개됐습니다. 효소 활성이 없는 Cas9에 붙여서 이 Cas9을 가지고 면역침전이나 비슷한 방법을 이용해서 정제하는 것이 기본 아이디어인데요. 이번에 공개한 결과를 보면, Cas9가 붙은 채로 플로우셀에 들어가도 모터 단백질이 그냥 밀고 지나가서 전혀 시퀀싱에 문제 없다고 합니다. 그래서 tagmentation과 동시에 Cas9을 처리할 수 있고 그 후 정제도 단순하다 보니 기존의 다른 키트들보다 훨씬 간단하게 돼 버렸네요. 1시간 이내에 DNA부터 시작해서 enriched 라이브러리가 나오게 돼 버렸습니다.

리드를 조금 읽다가 rRNA같이 안 읽어도 되는 시퀀스다 싶으면 바로 반대로 전기를 걸어서 뱉어내 버리는 Read Until도 약간 소개했는데요. 자세한 것은 이미 전에 다 공개됐던 것이고, API를 통해서 사용자 프로그램이 직접 MinKNOW에 연결해서 돌게 된다고 하네요. 그런데 그 이후로 모터 단백질이 450bps로 속도가 올라가는 바람에.. 이제 한 10kbp정도는 돼야 좀 뱉어도 뱉는 것 같지 짧은 건 프로그램에서 뱉어내라고 하면 웬만하면 “이미 다 지나가고 없는디? =.=”하고 포어가 당황하게 생겼어요.

최초의 ~~~~ 지놈: Cliveome

ONT 제품 업데이트 발표 때마다 카리스마를 발산하고 있는 ONT의 간판스타 Clive Brown이 자기 지놈을 시퀀싱 해서 공개했습니다. 인류 최초로 “자기” 피에서 DNA를 뽑아서 스스로 라이브러리를 만들어서, 시퀀싱해서, 어셈블리해서 공개하는 개인 유전체라고 하네요. James Watson이나 Craig Venter도 피만 줬지 자기 손으로 시퀀싱하고 라이브러리 만들지는 않았죠. ㅎㅎ

MinION 36개 플로우셀로 150Gb를 뽑아냈고, 25kb이상 long read가 30Gb 나왔다고 합니다. haplotype assembly를 만들려면 이 정도는 돼야 하겠지만.. 지금 시퀀스 정확도로 잘 될지는 의문이네요. 그래도 다른 시퀀서에서는 할 수 없었던 시그널 수준 취합이 가능하니까 앞으로는 꽤 괜찮아질지도 모르겠네요. 트잉여답게 피 뽑는 순간 부터 자기 피 뽑는다고 긴장된다고 트위터에 엄살 생중계를.. ㅋㅋ; 앞으로도 자기 VDJ지역 대상으로 time-course immunoprofiling을 꾸준히 해서 계속 공개한다고 하고요. Zumbador, Cas9 enrichment 등등 새로 제품 개발되는 것마다 나오면 다 시험삼아 다 해 보고 Cliveome을 꾸준히 업데이트하겠다고 하네요. 데이터는 어제 GitHub에 모두 공개되었습니다.

이 외에도 direct RNA sequencing과 또 다른 여러 응용 분야에 대해 재미있는 발표가 많이 올라왔습니다. 관심 있는 분은 https://vimeo.com/user5318092 여기에서 살펴보세요~

영국사람들이 RNA를 직접 시퀀싱하는 방법

RNA를 시퀀싱하는 걸 RNA-seq이라고 부릅니다. 그런데 RNA-seq할 때 RNA를 시퀀싱하지는 않죠. (엥 이게 뭔 소리.?) 요즘 시퀀싱 업계 최고의 떠오르는 별 옥스포드 나노포어가 “최초로” RNA를 대규모로 시퀀싱하는 기술을 만들어서 프리프린트를 냈습니다. 어떤 일이 있었는지, 어떤 건지 한 번 알아봅시다~!

RNA-seq은 보통 여러 RNA의 양을 재거나, 시작이 어딘지, 끝이 어딘지, 스플라이싱이 어떻게 되는지 볼 때 씁니다. RNA는 단백질 결합이나 자르기 붙이기 구조 바꾸기 등 변화무쌍한 녀석이라, 여러 실험적 전처리를 거쳐서 온갖 변형된 RNA-seq이 나왔죠. RIP-seq, CLIP-seq, SHAPE-seq, TAIL-seq, small RNA-seq, ribosome profiling, 3P-seq, lariat sequencing, degradome-seq 등 아주 특징적으로 다른 놈들만 쳐도 금세 10개가 넘어갑니다.

그런데, 알고 보면 이 수많은 방법 중에 RNA를 시퀀싱하는 놈은 하나도 없습니다. 다 cDNA를 만들어서 증폭해서 DNA를 시퀀싱하죠. cDNA나 RNA나 결국 그 놈이 그 놈 아닌가 싶지마는, 변환 과정에 꽤 많은 정보를 잃어버립니다. 우선, 증폭. RNA에서 DNA를 만들어서 시퀀싱하기 좋은 형태로 딱 만들어주는 “라이브러리 프렙” 과정은 효율이 낮은 스텝이 많이 껴 있습니다. 그래서 증폭 없이는 기존 2세대 시퀀서는 거의 깨끗하게 돌릴 수 없는데요. 문제는 어떤 놈은 100배로 증폭되는 사이, 다른 놈들은 2배로도 증폭이 안 되는 일도 흔하다는 거죠. 이 문제가 가장 심각한 마이크로RNA 시퀀싱에선, 다른 RNA 2가지를 똑같은 양으로 넣고 라이브러리를 만들어도 결과는 100배 넘게 차이 나는 경우가 뭐 말할 필요도 없이 늘 있는 일입니다.

그리고, DNA로 변환하는 과정 중에 RNA의 화학적 수식 정보를 다 잃어버립니다. 후성전사체(epitranscriptome)가 요새 RNA쪽에서 핫한 키워드인데요. 최근 3년 간 mRNA에서도 N6-methyladenosine, N1-methyladenosine, pseudouridine, 5-methylcytosine이 발견되고 논문이 쑥쑥 잘 나오면서 RNA쟁이들이 수식된 RNA를 어떻게든 보려고 노력을 많이 하고 있죠. 그런데 DNA로 변환을 하게되면 그냥 밋밋한 A, T, C가 돼 버려서 재미가 없어집니다. 궁색하게 전처리를 어떻게든 해야 하는데 그래도 썩 마음에 들지는 않죠.

RNA쟁이들은 오랫동안 RNA를 있는 그대로 처음부터 끝까지 쭉쭉 읽어내면 얼마나 좋을까 하고 꿈꿔왔습니다. 3세대 시퀀서 중 가장 먼저 떴었던 HelicosPacBio도 그래서 direct RNA sequencing을 처음부터 그렇게 밀었죠. 리드 길이가 긴 것은 좋았지만, 역전사는 둘 다 피할 수 없었습니다. PacBio에서 methyladenosine을 구분할 수 있다는 논문도 몇 개 나오긴 했지만, 하기도 어려운데다 구별도 잘 안 되었습니다.

짜잔. 그래서 역전사가 필요없는 나노포어에서 멋진 기술을 내놓았습니다. 10명이 넘는 꽤 큰 팀을 오랫동안 운용해서 재작년부터 정보를 조금씩 흘리기 시작했죠. 올해 6월에는 direct RNA sequencing의 베타 프로그램을 시작했습니다. 8월에는 프리프린트 서버인 bioRxiv에 논문을 올렸습니다. 사실 논문이라고 부르기는 좀 부끄럽고 그냥 광고 내지 찜 정도로 봐 줄 수 있겠습니다. 메쏘드 부분이 전혀 구체적이지 않고, 대부분 정보를 숨긴데다가, 성능 평가 부분도 그냥 두루뭉술하게 퉁치고 지나가버렸습니다. 그래도 새로 공개된 정보가 많으니 한 번 자세히 뜯어봅시다~

나노포어는 다른 시퀀싱 방법들과 달리 방향을 마음대로 할 수 있습니다. 5′부터 읽을 수도 있고 3′끝 부터 읽을 수도 있죠. 방향에 따라 라이브러리 만드는 방법이 전혀 달라지고 나오는 시그널도 전혀 다르니 어디서부터 읽을지 잘 골라야 하죠. 상용화된 DNA 시퀀싱 키트에서는 5′부터 읽게 되어있는데, RNA sequencing에서도 작년 5월에 발표된 자료까지만 해도 5′부터 읽게 되어 있다가, 이번에 3′부터 읽는 것으로 바뀌었습니다. 아직 최종적으로 상용화 버전에서 어느 방향을 쓸지는 확정되지는 않았는데요. 5′부터 읽는 게 엄청나게 시그널 특성이 좋지 않는 한, 그냥 3′->5′을 유지할 가능성이 높습니다. Direct RNA sequencing에서는 양쪽 끝 중에 한 군데만 어댑터를 붙이면 되는데요, 5′끝보다 3′끝이 쓸 수 있는 무기(효소)도 훨씬 많고 5′캡이 막아주는 덕분에 간단한 프로토콜 만들기가 쉽죠. 그래서 이번 논문에서 쓰는 프로토콜은 이렇게 어댑터를 붙입니다.

나노포어 direct RNA sequencing 라이브러리 만드는 방법 중 하나
나노포어 direct RNA sequencing 라이브러리 만드는 방법 중 하나. Giralde et al. (2016) doi:10.1101/068809

이렇게 붙여서 나노포어 플로우셀에 넣으면 회색 반지모양으로 그려진 단백질이 RNA쪽 가닥을 잡고 조금씩 놓아주면서 나노포어에 통과시켜주게 됩니다. 이 단백질을 나노포어에서는 모터 단백질(motor protein)이라고 부르는데요. 모터 단백질을 쓰지 않으면 DNA나 RNA가 신호를 잡을 수 없을 정도로 너무 빨리 통과해버리기 때문에 신호 분석이 불가능합니다. 그렇다고 무한정 느리게 잡고 있으면 단일가닥 DNA나 RNA가 스스로 접히는 2차 구조나 랜덤하게 움직이는 신호까지 잡히는데다 일정 시간동안 통과하는 DNA/RNA 개수도 줄어들게 됩니다. 그래서 너무 빠르지도 않고 너무 느리지도 않은 기가 막힌 속도로 살짝 잡고 놓아주는 게 중요합니다. DNA를 5′에서 3′로 보내면서 살살 놓아주는 것과 RNA를 3′에서 5′로 보내면서 살살 놓아주는 것은 전혀 다른 얘기라서, 이번엔 이 모터 단백질도 바꿨다고 하네요. 하지만 구체적인 정체는 숨기고 있습니다.

자 이제 이렇게 시퀀싱이 됐으면, 베이스콜링 정확도는 얼마나 될지, RNA 화학적 수식은 잘 잡을 수 있는지가 모든 사람이 궁금해 하는 지점이 됩니다. 옥스포드 나노포어 R9의 DNA 시퀀싱 정확도는 1번 읽었을 때 85% 정도, 앞뒤로 2번 읽었을 때 95%로 알려져 있습니다. 자 그럼 direct RNA는…….? 대략 80% 된다고 합니다. -O-; 그런데 좀 그런게, 전체 리드 대상이 아니라 아주 전형적인 예라면서 특정 리드 1개만 보여주고 정확도를 80%라고 추정하고 있습니다. 어디서 사기를.. ㅋㅋ 전체로는 GAPDH 리드들을 모두 모아서 대략 96% 정도 시퀀스가 서로 같은 isoform 둘 중에 어느 것인지 매핑하면, 하나로 거의 확실히 구분할 수 있을 만큼은 된다고 합니다. (ㅎㅎㅎㅎ)

DRS에서 나온 서열 중 하나의 정렬. Giralde et al. (2016) doi:10.1101/068809
DRS에서 나온 서열 중 하나의 정렬. Giralde et al. (2016) doi:10.1101/068809

아직은 확실한 레퍼런스 DNA 또는 전사체 레퍼런스가 있을 때 아니면 쓰기가 어렵겠는데요. 그래도 열심히 align하면 대충 스플라이싱 구조 정도는 알아볼 수 있을 것 같습니다. 그렇다면 화학적 수식이 있는 것들은 구분이 될까요? 이거라도 잘 돼야 할텐데요.

나노포어 DRS에서 나온 m6A 주변 신호. Giralde et al. (2016) doi:10.1101/068809
나노포어 DRS에서 나온 m6A 주변 신호. Giralde et al. (2016) doi:10.1101/068809

다행히도 m6A는 위에서처럼 구분이 아주 잘 되네요. 나노포어에 통과하고 있는 베이스 외에 주변에 있는 녀석들도 전기전도도에 영향을 좀 미치다보니, 나노포어 신호는 주변 서열 영향을 많이 받는데요. 다른 서열 사이에 껴 있는 m6A도 구분이 잘 된다면 좋겠네요. 5월에 옥스포드 나노포어 사용자 모임(?)인 런던 콜링에서 Mark Akeson이 tRNA의 경우에는 알고리즘을 열심히 트레이닝하면 tRNA에 있는 각종 다양한 수식도 구분할 수 있다는 걸 보여줬으니, 이런 저런 데이터를 계속 쌓다보면 mRNA에서 다른 수식들도 잘 다룰 수 있게 되지 않을까 봅니다.

옥스포드 나노포어 R9의 주요 업그레이드 중에 딥 러닝 알고리즘(RNN)을 도입한 것이 있습니다. 이번 direct RNA sequencing에서는 RNN 대신 기존에 쓰던 HMM을 썼기 때문에, 베이스콜링 정확도나 화학적 수식 모두 개선의 여지가 있습니다. 아직 트레이닝도 다양한 상황에서 충분히 되지는 않았구요. 아마도 엔드 유저 입장에서 완전히 베이스콜링 된 것을 쓰자면 시간이 꽤 더 걸리겠지만, 신호 수준에서 분석하는 걸로는 지금도 RNA쟁이들에게 좋은 무기로 쓰일 수 있을 것 같네요.

참고로 (혹시나 궁금한 분이 있을까봐) 아직 옥스포드 나노포어는 IPO를 하지 않았습니다. (투자는 거의 20년에 걸쳐서 엄청 받았죠. ㅋㅋ)