생물정보 태동기의 재미있는 사실들

어느 학문 분야든 성숙하다보면 해당 분야의 역사와 철학에 대한 연구가 따라오게 된다.
학문이 생기게 된 배경과 발전 과정, 패러다임의 변화, 다른 학문에 대한 영향, 연구자들의 분야
고유적인 연구 방법을 관찰하는 것은 재미있지 않을 수가 없다.

최근에 PLoS Computational Biology에 생물정보학의 뿌리라는
기사가 올라왔다.
유전체 모델이나 RNA 2차구조 같은 것을 촘스키식 문법으로 다룬 것으로 유명한
David Searls가 쓴 생물정보학의 역사에 대한 글인데, 깊게 잘 다루었다.

철학적인 생각은 글에 남겨두고, 의외로 모르고 지나가기엔 너무 아쉬웠을 만한 재미있는 사실 몇 가지만 추려보면,

  • 컴퓨터를 생물 연구에 처음으로 쓴 사람은 너무 뻔해서 약간은 재미없게도(?) Ronald Fisher인데, EDSAC을 개발한 Wilkes와 Wheeler가 직접 작업을 돌려주었다. (1950년)
  • 소개가 필요없는 Alan Turing은 말년에 주로 발생학 연구를 했으며 (1952년~), 역시 정보이론과 논리회로의 창시자격인 Claude Shannon은 심지어 박사학위를 계산유전학에 대한 연구로 받았다. (1940년)
  • 빅뱅이론으로 유명한 이론물리학자 George Gamow와 Monte Carlo 시뮬레이션으로 유명한 이론물리학자 Nicholas Metropolis는 유전코드의 상세한 기전이 밝혀지기 전에, 서열의 통계적 분석과 시뮬레이션으로 유전코드의 이론적 특성 연구를 했는데 이 연구가 거의 역사 최초의 생물정보학 연구로 보통 받아들여진다. (1954년)
  • 역시 초기에 컴퓨터를 가장 널리 사용한 것은 결정학자들이었는데, 1952년에 이미 EDSAC으로 계산한 논문이 나왔다.
  • 또 다른 생물정보학의 주세부분야 중 하나인 계통분류계산은 1957년에 처음 시작되었다. 요즘 화학유전체학에서 거의 표준처럼 쓰이는 타니모토 계수는 1960년에 IBM의 수학자인 타니모토가 세균 분류를 위해 개발했다.

보통 어디서 트렌드따라 뚝 떨어진 신생융합듣보잡 취급을 많이 받는 생물정보학이지만 의외로 뿌리는 깊다. +_+

시퀀싱 데이터에서 3′ 어댑터 서열 제거

small RNA 시퀀싱에서는 리드보다 RNA가 더 짧아서, 5′ 끝부터 읽을 경우에는 3′ 어댑터 시퀀스가 나오고, 프라이머를 뒤집어서 3′ 끝부터 읽으면 5′ 시퀀스가 나올 수 밖에 없다. small RNA가 아니더라도 CLIP에서는 보통 바인딩 사이트를 정확히 알기위해 짧게 쳐내서 시퀀싱하는 경향이 있어서, 보통 30nt 안쪽으로 들어오는 편이라 시퀀싱한 뒤에 어댑터 제거가 꼭 필요하다.

그렇지만 역시나 PCR 오류, 시퀀싱 오류, 어댑터 불량 등등 수많은 잡음때문에 역시 단순 문자열 비교로는 잘 안 통한다. 그래서 정규식을 쓰기도 하는데 영 속도가 만족스럽지 못하고, 모든 자리에서 어댑터 시퀀스랑 비교해서 미스매치를 세는 등의 방법(HTSeq 패키지)을 쓰기도 하는데, 갭을 전혀 허용하지 않아서 어댑터 합성 품질이 안 좋은 경우는 놓치는 것이 너무 많아서 결과를 보면 답답~하다.

최근 많이 쓰이는 방법으로 Needleman-WunschSmith-Waterman을 섞어서 어댑터의 5′ 끝에게는 지역정렬처럼 아무데서나 시작하게 하고, 3′ 끝에는 전체정렬처럼 끝까지 가게 하는 것이 있다. 그런데, 소프트웨어는 홈페이지에 오거나, 저자에게 말하면 준다고 다들 써 놓고서는 정작 홈페이지에 가면 아무 것도 없고, 메일 보내면 묵묵부답이라, 1년 넘게 정규식으로 불쌍하게 쓰다가, 결국 큰 마음먹고 토요일 밤을 투자했다. +_+

소스코드 받기 (파이썬용 C 확장 모듈)

실제로는 affine gap penalty를 써서 행렬이 3개지만, 그냥 linear gap penalty를 쓴 경우라고 하고 행렬을 예를 들어 보면,

  • 시퀀스 리드: CCAGTCCA
  • 어댑터 시퀀스: CCAG
  • 점수: match 2, mismatch -3, gap penalty -3

3' 어댑터 떼기Watch movie online The Transporter Refueled (2015)

이렇게 하면 짠~