오픈룩에는 어떤 전공 사람들이 올까?

얼마 전에 친구와 얘기하다가 "내 홈페이지는 아무래도 전산과만 오지 않을까~?"라는 말을 했었는데, 그 후에 과연 진짜로 전공 분포가 어떻게 되는지 궁금해졌습니다. -ㅇ-;

그래서 간단하게 조사해 볼 수 있는 방법을 궁리해 보다가, 대전의 모 학교 내부 접속자들은 IP만 가지고도 건물 위치를 알 수 있기 때문에 웹서버 접속 로그에서 학교 건물 이름으로 전공을 추측하는 게 가능해서 그걸로 소집단이나마 해봤습니다. ^^;

전공별 접속 통계

위 그래프에서는 요청횟수가 나타나 있는데, "내 이름 어때"가 최근 접속자에서 많은 부분을 차지하고 있기 때문에 별도로 분리해서 봤고, css, jpg등 부속적으로 따라오는 파일들은 제외하고 순수한 문서 요청만 셌습니다. 기간은 6월 1일부터 오늘까지 18일간이고요~ 역시 전산과가 굉장히 많은 부분을 차지하는데, 의외로 전자과도 꽤 많습니다. 아무래도 내 이름 어때에서 넘어온 게 아닌가 추측이 되는데, 학부(주로 기숙사)에서는 내 이름 어때 요청만 굉장히 많은게 역시 학부생들 간의 유행 URL 전달이 대학원생들보다 활발한 것 같군요.

다음으론 요청수 말고 IP별 접속자 통계인데요. 접속자(unique visitor)에서 날짜별로 다른 날에 접속한 경우 별도 방문으로 처리한 방문횟수를 세 봤습니다. (내 이름 어때는 제외)

접속자 기준 통계

요청수는 전자과가 전산과보다 많았지만 접속자는 전산과가 더 많은데, 한 번 방문해서 눌러보는 횟수가 전자과가 더 많은 것 같군요. 아마도 로그를 대충 둘러보면 전산과는 RSS를 구독하는 경우가 많아서 접속이 거의 한 번에 1페이지씩인 경향이 다른 과보다 강한 것 같네요.

마지막으로 단골 손님 수를 전공별로 봤습니다.

단골 손님 통계

단골 손님의 기준은 18일 간 제가 글을 몇 개 안 썼기 때문에, 2번 이상 다른 날짜에 방문한 IP 수로 했습니다. 수가 적어서 신뢰도가 아주 높지는 않지만 역시 전산과가 가장 많고 전자과가 두 번째군요. ^^;

결론: 앞으로는 정상인의 블로그로 거듭나기 위해 노력하겠습니다. --;;;;

댓글 16 개 | 트랙백 0 개 (보낼곳) | 태그 openlook life


내 이름 어때? -- 한국인의 이름 2탄!

전에 올렸던 한국인의 이름 통계를 많은 분들이 관심있게 봐 주셔서, 본인 이름은 얼마나 많은가요, 얼마나 중성적인가요 같은 질문을 많이 받았습니다. 그래서 직접 확인하실 수 있게 통계에서 나온 여러 자료들을 모아서 한 페이지에 보이도록 서비스를 만들어 봤습니다.

내 이름 어때!

대부분은 이전 글에서 소개해 드렸던 내용이고요, 이번에 추가된 부분은 통계에서 자료가 충분하지 않을 때 자동으로 추정하는 것과 이름이나 글자가 시대가 바뀌면서 어떤 빈도 변화가 있는지 그래프로 나타내는 부분입니다.

자동 성별 추정 부분은 통계 수치없이도 단순하게 바로 이름에서 예측할 수 있게 하기 위해 피처는 그냥 이름을 자소로 쪼갰고, random forest를 사용했습니다. (옵션은 리그레션, 500그루, mtry=3, R randomForest 패키지 사용) 10배 교차검정에서 피어슨 연관성이 0.97이 나와서 대략 결과는 좋긴 한데, 실제로 보다 보면 얼토당토않은 결과가 심심찮게 나옵니다;; 나중에 제대로 쓰려면 글자 단위 통계도 피처로 좀 추가해야할 것 같네요.

그리고, 역시 이름도 시대별 흐름이 있는데요. 예를 들어 미자, 혜자, 경자 같이 -자로 끝나는 이름은 60년대생까지 매우 흔한 여자 이름이었지만 70년대부터 급속히 사라지는데 그래프로 직접 이런 경향을 확인할 수 있도록 했습니다. 데이터셋이 그렇게 크지 않기 때문에 그냥 생데이터를 쓰지는 못하고, 9년 단위 슬라이딩 윈도우 평균으로 했기 때문에 갑자기 튀는 최고점 같은 것은 좀 무시되었습니다. (이 분석을 위해 "생년"만 추가로 데이터를 받아서 보충했습니다.)

자 그럼 본인 이름을 넣어보세요~ ----> 내 이름 어때! <----

댓글 23 개 | 트랙백 5 개 (보낼곳) | 태그 happyhacking life


한국인의 이름에 대한 여러 수치 조사

예전부터 꼭 해 보고 싶었던 것 중의 하나로 이름 데이터베이스를 구해서 흔한 이름, 여성적 이름, 중성적 이름 등등 같은 것 통계내기가 있었습니다. 요새 주변 사람들 중에 아기를 낳아서 새로 이름 짓는 사람도 많고, 아무래도 이름에서 나오는 느낌의 신비(?)에 접근하고 싶어서! -ㅇ-

그러다가 얼마 전에 이름 데이터베이스를 하나 구했는데, 정보활용 동의를 받은 사이트에 가입한 분들의 정보에서 이름, 성별 2가지만 추출한 것을 받았기 때문에 개인정보보호와 관련된 문제는 심각하지 않을 것 같습니다. 정확한 통계를 위해서는 성별외에도 생년이나 출생지같이 이름에 중대한 영향을 미치는 요소를 파악해서 편향성을 봐야하겠지만, 개인정보의 과다한 사용이 될까 해서 그냥 이름 성별 외에는 사용하지 않기로 결정했습니다. 그 결과 통계에 편향이 있는 것은 눈에 보이지만 편향을 피하기도 힘들고, 신뢰도가 어느 정도 되는지 정확히 통계적인 분석은 불가능했습니다. 따라서, 아래 분석은 그냥 재미로 읽어주시고 과학적인 통계로 이뤄진 것이 아님을 유의해 주세요. :)

사용한 데이터셋은 기본적인 오타나 잘못 입력된 것이 명확한 자료들, 깨진 자료들은 수작업으로 제거했고, 결국 80757명 (남자 52640명, 여자 28117명) 데이터로 분석했습니다. 여자 수가 훨씬 적게 샘플링됐기 때문에, 전체적으로 분석에서 비율에 맞춰서 보정하려고 노력했습니다.

데이터셋 내 성별 편향

성씨별 빈도

기본적으로 성씨별 빈도는 통계청에서도 발표하는 자료이기 때문에 우리 데이터셋이 성씨별로 편향되어 있지 않은지 보기 위해 똑같이 빈도 조사를 해 봤습니다. 그래서 순위를 보면 (한자는 음가기준으로 합산)

순위 2000년 통계청 데이터셋
1 김 (21.6%) 김 (21.6%)
2 이 (14.8%) 이 (14.8%)
3 박 (8.5%) 박 (8.4%)
4 정 (4.9%) 정 (4.8%)
5 최 (4.7%) 최 (4.7%)
6 조 (2.9%) 조 (2.9%)
7 강 (2.5%) 강 (2.4%)
8 윤 (2.1%) 장 (2.2%)
9 장 (2.1%) 임 (2.1%)
10 임 (2.0%) 윤 (2.1%)

아주 비슷하게 나온 것이, 장난으로 엉뚱한 이름으로 가입한 경우가 그렇게 많이 포함되어 있지 않고 편향도 그다지 뚜렷한 것은 아니라는 것을 확인할 수 있습니다.

이 다음 통계부터는 성과 이름을 분리해서 쓰기 때문에 2글자 성을 구별할 필요가 있었는데요. 특별히 좋은 방법이 없어서 그냥 일정 빈도 이상의 2글자 성씨로 시작하는 이름을 모두 2글자 성씨로 봤습니다. 즉 "서문교"같은 이름은 서씨인지 서문씨인지 구분할 수 없으므로 그냥 모두 서문씨인 것으로 처리했습니다. (이 조사에서 처리한 2글자 성씨: 남궁, 독고, 동방, 사공, 서문, 선우, 제갈, 황보)

가장 흔한 이름은 무엇일까!

자기 이름이 무척 흔한 분들은 보통 인터넷에 이름 쓸 때도 전혀 거리낌 없이 막 써도 익명이 보장될 정도인데요. 과연 흔한 이름은 어떤 게 있을까 무척 어릴 때 부터 궁금했는데 정량적으로 조사해 봤습니다! 물론 세대별 차이가 있긴 한데, 이번 데이터셋은 이름, 성별 외의 개인정보를 사용하지 않았기 때문에 세대별 편향성 같은 것은 고려하지 않았습니다.

1 정훈 (0.367%) 미경 (1.106%)
2 성호 (0.350%) 은주 (1.024%)
3 정호 (0.293%) 미영 (0.942%)
4 성진 (0.285%) 은영 (0.882%)
5 성훈 (0.285%) 경희 (0.850%)
6 영수 (0.281%) 은경 (0.839%)
7 상훈 (0.277%) 정희 (0.825%)
8 영호 (0.264%) 은정 (0.818%)
9 준호 (0.262%) 미숙 (0.804%)
10 진호 (0.260%) 현숙 (0.800%)

아는 정훈이 미경이가 보통 너댓명 씩은 되시니까 다들 1등은 놀라지 않으실 것 같네요 :)

그 뒷 순위로는 남자는 재호- 영진 - 상현 - 성환 - 재영 - 영민 - 재훈 - 영준 - 영철 - 성수 등등이고, 여자는 은희 - 현주 - 미정 - 영미 - 현정 - 지영 - 영숙 - 정숙 - 선희 - 은숙 이렇게 나가는데, 둘의 비율 차이가 비교가 안 될 정도입니다. 즉, 여자 이름은 0.2% 이상 이름이 115개나 되는데 남자는 0.2% 이상이 27개 밖에 안 됩니다. 여자 이름이 훨씬 집중적으로 같은 이름이 많이 쓰이고, 남자 이름이 다양성이 높다고 볼 수 있겠습니다. (엔트로피 계산은 생략;;)

빈도별 이름 사용 인구

이름에 많이 쓰이는 글자는?

이름 전체 말고 각 글자별로 보는 방법도 있겠죠~ 그래서 성별로 어떤 글자가 위치별로 많이 쓰이는지 알아봤습니다.

순위 남자 앞 남자 뒤 여자 앞 여자 뒤
1 성 5.56%호 5.42%미 8.34%희 10.04%
2 영 5.09%수 4.67%은 7.66%숙 9.31%
3 상 4.30%석 3.32%정 6.12%영 6.90%
4 재 4.19%철 3.30%영 5.64%정 6.15%
5 종 4.12%훈 3.13%경 4.81%경 5.47%
6 정 4.03%현 3.12%현 4.51%미 5.29%
7 동 3.07%진 2.92%선 3.89%자 4.81%
8 용 3.00%영 2.58%혜 3.83%순 4.60%
9 승 2.79%환 2.55%지 3.72%선 3.61%
10 경 2.68%식 2.54%수 2.77%주 3.49%

역시 여자 이름이 흔히 쓰는 글자가 좀 더 집중되어 있는데, 보통 한국인의 평균 얼굴 만들듯이 대충 아무렇게나 상관관계 없이 뽑았을 때 가장 흔해 보이는 이름은 성호, 미희 가 되겠습니다. 성별 구분을 하지 않고 그냥 뽑으면 영희가 가장 대표적인 이름이 됩니다. :)

제 이름은 여자 앞글자에서 8등, 남자 뒷글자에서 10등 했군요;;;;

도무지 여자인지 남자인지 알 수 없는 이름은!

종종 중성적 매력이 있는 이름이 있죠. "정민"이라던지.. 양쪽에서 모두 많이 쓰여서 이름만 봐서는 설렐지 안 설렐지 결정도 못할 무서운 그런 이름! 흐흐. 그래서 양쪽에서 모두 많이 쓰이는 이름들을 찾아 봤습니다. 성별 편향은 여성내비율 / (남성내비율 + 여성내비율) 로 계산했으므로 0에 가까운 값이 나오면 남자 이름에서 압도적으로 많이 쓰이는 것이고 1에 가까우면 여성 편향이 있는 게 됩니다. 샘플이 적은 이름들은 비율이 잘못 계산될 수 있기 때문에 최소 0.05% 이상 있는 이름에 대해서만 조사했습니다.

경진 0.492
태희 0.494
기정 0.495
정윤 0.498
희원 0.4996
진 0.531
정민 0.532
윤영 0.542
주현 0.547
세영 0.555

태희는 당연히 여자 아닌가 생각했더니, 거의 완벽한 중성적 이름이군요. -ㅁ-;

저도 저런 이름 있었으면 무척 좋았을텐데 아쉽네요. 제 이름은 남자반 여자반 갈라놓은 남녀공학 학교같은 분위기라서 --;;

그런데, 성별 편향을 조사하면서 잘 살펴보면 0.5 경계선 주변의 이름이 그다지 많지 않다는 것을 알 수 있었습니다. 그래서 편향값의 분포를 히스토그램으로 그려 봤는데 진짜 확실하게 드러납니다.

이름별 성별 편향 분포

여성쪽이 압도적으로 확 올라가 버리는 것은 이름이 아무래도 집중되는 경향도 있긴 하지만, 여자가 남자이름을 쓰는 경우가 남자가 여자이름을 쓰는 경우에 비해서 훨씬 많은 것이 주요 원인인 것 같군요.

남자/여자 이름에 각각 많은 글자?

전체적인 빈도 뿐만 아니라, 어떤 특정 글자가 전체적인 느낌을 압도해서 남자로 만들어버린다거나 여자로 만들어버리는 글자들이 제법 있는데요. 예를 들어서 "철"이나 뒷 글자가 "국"인 경우에는 웬만한 글자가지고는 여자이름을 만들기가 어렵고, 앞 글자가 "미"나 뒷 글자가 "숙"인 경우에는 남자 이름을 만들기가 쉽지가 않습니다. 그래서 한 번 글자별 성별 편향을 조사해 봤습니다. 편향성은 마찬가지로 아까와 같이 0과 가까우면 남자, 1과 가까우면 여자입니다.

순위 남자 앞글자 남자 뒷글자 여자 앞글자 여자뒷글자
1 왕 (0.0) 황 (0.0) 미 (0.9954) 애 (1.0)
2 웅 (0.0) 율 (0.0) 애 (0.9908) 분 (1.0)
3 범 (0.0184) 률 (0.0) 난 (0.9905) 녀 (1.0)
4 철 (0.0268) 술 (0.0) 혜 (0.9892) 름 (1.0)
5 대 (0.0341) 걸 (0.0) 숙 (0.9840) 자 (0.9996)
6 익 (0.0352) 탁 (0.0) 소 (0.9824) 란 (0.9987)
7 중 (0.0538) 백 (0.0) 분 (0.9771) 미 (0.9986)
8 낙 (0.0612) 돈 (0.0) 아 (0.9662) 혜 (0.9983)
9 택 (0.0630) 룡 (0.0) 매 (0.9630) 임 (0.9981)
10 권 (0.0738) 건 (0.0) 말 (0.9571) 라 (0.9969)
상위 25 평균 0.0727 0.0069 0.9337 0.9848

역시 뭔가 성별을 치명적으로 결정해버릴 수 있는 글자들이 많이 보이는 것 같군요. :) 그런데, 뒷 글자가 앞 글자에 비해서 편향이 훨씬 심한 것을 볼 수 있는데, 그래서 남녀 데이터를 모두 합쳐서 앞/뒤의 각각의 표준편차를 구해봤는데 각각 0.31, 0.38로 차이가 제법 나는군요. 앞 글자보다는 뒷 글자가 전체 성별 느낌을 결정하는데 중요한 역할을 하는게 아닌가 싶습니다.

앞 뒤 위치에 따라서 성별이 다른 글자

어떤 글자들은 앞에 오면 남자이름에 주로 쓰이지만, 뒤에 갈 때는 여자이름에 쓰이는 경우가 있는데요, 이런 게 어떤게 있는지 한 번 찾아봤습니다. (편향은 앞의 설명과 마찬가지로 계산했습니다.)

글자 앞글자 편향 뒷글자 편향
0.747 (여) 0.084 (남)
0.725 (여) 0.093 (남)
0.777 (여) 0.239 (남)
0.625 (여) 0.087 (남)
0.604 (여) 0.128 (남)

예를 들어, "보"가 앞에 오면 여자 이름인데, 뒤에 오면 남자인 경향이 훨씬 높다는 것이죠. 그런데 신기하게도 편향이 차이나는 것 상위 13개가 모두 앞 글자에서 여자/뒷 글자에서 남자이고, 처음으로 뒷 글자에서 더욱 여성스러워 지는 것은 "이" (0.57 -> 0.92), "자" (0.65 -> 0.99) 입니다.

성별을 진짜로 확! 바꿔버리는 글자

앞에서는 그냥 전체적으로 한 성별에서 많이 나오는 글자들을 조사했는데요. 이번에는 원래는 여성성이 있는 글자에 다른 글자가 붙어서 남성 이름으로 바꿔버린다던지 완전히 반대로 바꿔버리는 글자들이 있는지 조사해 봤습니다.

순위 남성 앞글자 편향조절 여성 앞글자 편향조절 남성 뒷글자 편향조절 여성 뒷글자 편향조절
1 철 (0.703) 슬 (-0.672) 호 (0.549) 아 (-0.572)
2 대 (0.576) 미 (-0.642) 석 (0.522) 이 (-0.519)
3 요 (0.546) 예 (-0.491) 규 (0.494) 미 (-0.486)
4 충 (0.490) 혜 (-0.441) 상 (0.480) 실 (-0.485)
5 치 (0.486) 소 (-0.433) 준 (0.468) 숙 (-0.484)
6 창 (0.468) 은 (-0.433) 용 (0.460) 순 (-0.435)
7 형 (0.455) 금 (-0.342) 식 (0.451) 림 (-0.428)
8 동 (0.448) 옥 (-0.329) 찬 (0.442) 경 (-0.422)
9 용 (0.445) 여 (-0.315) 필 (0.437) 은 (-0.421)
10 병 (0.444) 지 (-0.311) 한 (0.436) 례 (-0.419)

므흐흐. 역시 단순 빈도 조사를 한 앞 것보다 좀 더 결정적인 글자들이 강조되었는데요. 제 이름은 앞 글자에서 -0.441, 뒷 글자가 0.451 해서 아슬아슬하게 남자 이름이 되었군요! -O-;

한 위치에만 압도적으로 많이 쓰이는 글자

각 성별 안에서도 한 자리에만 많이 나오는 글자가 있는데, 뭐가 있나 조사해 봤습니다.

순위 남자 앞글자 남자 뒷글자 여자 앞글자 여자 뒷글자
1 자 (52/1) 식 (1/1339) 세 (135/1) 실 (1/160)
2 병 (1394/31) 섭 (3/798) 소 (360/4) 심 (2/162)
3 지 (498/13) 곤 (1/240) 계 (59/1) 례 (3/167)
4 여 (36/1) 엽 (1/152) 보 (160/3) 랑 (1/29)
5 시 (108/3) 열 (7/555) 유 (314/7) 자 (52/1353)

-식, -실, -례 는 자주 보지만 식-, 실-, 례-는 좀처럼 보기 힘든 것 같은 게 위의 표에서 표현되어 있는데, 전체를 조사해 보면 반 정도 글자는 앞 뒷 글자 구분이 있고, 반 정도는 앞 뒤에서 모두 사용되는군요.

한글 자모별 편향

한글은 분해해서 자모의 느낌도 볼 수 있으니까, 각 자모별 조사도 해 봤습니다~ 전체 자료는 표시하기에 너무 많아서 몇 가지 주요 자모만..

남자 초성 (앞) 11.06.34.018.217.119.85.02.610.1
남자 초성 (뒤) 12.42.34.418.418.59.65.12.021.2
여자 초성 (앞) 8.40.913.417.224.815.61.30.414.5
여자 초성 (뒤) 6.40.56.320.522.818.90.20.017.5

남자 중성 (앞) 11.19.314.816.811.12.83.88.24.61.311.0
남자 중성 (뒤) 5.54.715.110.611.34.32.620.72.61.713.9
여자 중성 (앞) 4.53.013.220.05.80.91.59.310.12.119.7
여자 중성 (뒤) 11.12.610.918.24.02.90.319.22.110.214.7

없음
남자 종성 (앞)23.93.619.22.41.50.249.20.0
남자 종성 (뒤)28.913.031.48.12.12.114.40.0
여자 종성 (앞)34.83.331.31.02.00.127.60.0
여자 종성 (뒤)38.113.623.01.03.30.220.70.0

가만 보고 있으면, 어감하고 직결되는 부분이 몇 군데가 확 눈에 띄는데요, 여자 이름에 받침이 없는 경우가 훨씬 많고, 뒷글자에 훨씬 많이 나오는 종성 같은 것들이 뚜렷하군요. (분석할 것은 많지만 지면 상 생략 -ㅇ-) 재미있는 것은 남자 중 거의 절반이 이름 앞글자가 ㅇ 받침이네요. +_+

성과 연결된 이름

종종 이름 중에 한가지 성씨하고 유독 잘 어울리는 이름이 있습니다. 예를 들어 한아름, 조아라, 정다운 이런 이름은 다른 성보다 한 성에 보통 집중되어 있죠. 그래서 그런 게 어떤게 있나 조사해 봤습니다. (괄호 안의 수치는 성의 빈도에 대한 해당 이름 내의 성의 빈도차)

여자이름 정다운 (21배), 조아라 (17.9배), 한송희 (14배), 한아름 (13.4배), 한송이 (11.5배), 고은선 (9.4배), 안소희 (8.4배), 조한나 (8.3배)

남자이름 남궁원 (268배), 백운봉 (125배), 심현보 (107배), 구정모 (79배), 허근 (69.7배), 홍준표 (59.4배), 홍광표 (55.4배), 권혁성 (53배), 홍원표 (52배), 권오성 (47.7배), 권대혁 (45.4배), 허욱 (39.6배)

여자이름은 대부분 연결된 글자들이 뜻하는 다른 단어들이 영향을 많이 주었는데, 남자이름은 돌림자와 관련된 것이 매우 많습니다. 즉, 홍씨와 권씨가 압도적으로 상위 빈도를 모두 차지했는데, 그 이유를 연구실 동료인 홍모군에게 문의한 결과, 홍씨가 넘어온 것이 조선대라서 얼마 되지 않다보니 항렬자가 상당히 같은 연대에서 많이 동기화되어 있다고 하는군요.

그래서 그냥 위치별로도 따로 조사를 해 봤는데, 따로 한 것과 큰 차이는 없어서 이름을 분해한 글자를 기준으로 성과의 상관관계를 봤습니다. (성-이름글자 순서)

여자이름 여-운 (49.4배), 권-혁 (36.1배), 민-홍 (17배), 백-설 (13.2배), 한-름 (13.1배), 남-우 (11.9배)

남자이름 구-본 (246.9배), 연-흠 (221배), 구-자 (141.5배), 인-치 (55.8배), 연-제 (42.1배), 구-회 (35배), 홍-표 (32.4배), 윤-여 (31.5배), 추-엽 (30.5배), 성-낙 (26.9배), 심-보 (20.8배), 곽-노 (19.9배), 권-오 (18.3배), 성-백 (17.9배), 허-행 (15배), 구-모 (14.7배), 임-채 (12배), 원-유 (11.9배)

주로 대부분 돌림자와 관련된 것을 알 수 있는데, 그동안 이상하게 한 성씨에서 한 글자를 많이 봤다 싶은 것들이 골고루 나와있네요. :-)

머릿글자가 겹치는 이름

이름을 대충 숨겨서 쓰려고 ㅇㅁㅂ 같은 방법을 많이 쓰는데, 이렇게 쓰면 과연 겹치는 사람이 얼마나 될지 궁금해서 한 번 찾아 봤습니다. 머릿글자가 ㅇㅁㅂ인 사람은 8만명 중 6명으로 0.000075 확률이라서 일부러 누구 찍어서 말하는 게 아니라고 말하기 매우 힘든 수준이라고 볼 수 있겠죠; 그럼 과연 가장 많이 겹치는, 머릿글자만 따도 이미 익명성이 보장되는 것은 어떤 게 있을까요!

머릿글자 비율 예시
ㅇㅈㅎ 1.50% 안정환 안재현 오지호 유정현 엄지혜 임지훈
ㅇㅈㅇ 1.34% 안재욱 이재오 양진영 오종원 유지연 윤재열
ㄱㅈㅎ 1.30% 강종훈 고정환 구자현 권재혁 김정현 김진형
ㅇㅅㅇ 1.26% 안상우 양소영 유수연 윤선영 이승엽 임순옥
ㄱㅇㅅ 1.20% 강은숙 공영섭 곽영수 금윤섭 김연실 김은수

위 이름 쓰시는 분들은 좋겠어요~ 머릿글자가 익명이라.. ^^;

마지막으로..

여러가지 이름에 대한 통계를 해 봤는데, 그동안 피상적으로 느꼈던 것을 정량적으로 확인해 볼 수 있는 기회가 됐습니다. 이름과 성별 밖에 없는 자료이기는 하지만, 그래도 혹시 있을 수 있는 오용을 막기 위해 위에서 공개된 자료 외에는 추가로 공개하지는 않을 예정입니다. 다음에는 여러 가지 기계학습 기법들을 이용한 이름 -> 성별 판단 루틴들을 만들어서 시험해 보는 글을 언젠가는 한 번 써 보려고 아이디어를 정리하고 있습니다. ^^;

댓글 21 개 | 트랙백 0 개 (보낼곳) | 태그 life


단백질 접기 게임 fold.it의 배경 이야기

요즘 인터넷에서 단백질을 접는 게임 fold.it이 아주 인기입니다. 단백질 접기(protein folding)는 구조생물정보학의 가장 큰 문제이기도 하지만, 제가 있는 연구실의 주요 주제이기도 해서, 단백질 접기에 관한 몇 가지 얘기를 해 볼까 합니다. :)

단백질 구조가 뭔가?

단백질은 생물을 구성하는 주요 분자구조 중의 하나인데, 20가지 아미노산이 일렬로 실처럼 쭉 연결되는 것이 기본 구조입니다. (현재 22번째 자연계 아미노산까지 발견되긴 했지만 사람은 20개만 사용하고 있습니다.) 20가지면 컴쟁이가 생각하기에 바로 생각할 수 있는게 알파벳으로 커버하고 남는다 그거죠. 그래서 실제로 아미노산은 알파벳으로 표시하고 있는데 각각의 이름을 따서 BJOUXZ 여섯개를 빼고 나머지로 표현하는 문자열로 많이 씁니다.

그런데, 각 아미노산은 성질이 있어서 자기들끼리 모이려고 하는 것도 있고, 서로 떨어지려고 하는 것도 있고 크기가 커서 부딪히지 않으려고 하는 것도 있고, 기타 등등 여러 성질이 있어서 안정적인 몇 가지 기본적인 구조(나선형, 판형 등..)을 지역적으로 이루는데, 이걸 2차구조라고 부릅니다.

역시 인간관계도 상당히 복잡하듯, 2차구조를 이룬 다음에도 자기들끼리 꼬이면 그나마 남은 관계까지도 복잡하게 얽여서 굉장히 안정적인 구조를 만들 수 있는데요, 이렇게 모인 것을 3차구조라고 부릅니다. 그리고 여러 단백질 가닥이 모여서 큰 단백질을 만들면 4차구조라고 부릅니다.

구조는 뭐에 쓰는가?

단백질은 생화학적 작용의 가장 기본적이고 유용한 분자이기 때문에, 생화학 작용에서 단백질을 빼면 거의 남는게 없습니다. 물론 핵산이나 탄수화물 등도 매우 중요하긴 하지만, 생화학 회로를 그린다 하면 거의 대부분 단백질이 주인공이죠. 그런데, 단백질이 상대를 만나서 반응을 하는 기준이 대부분 단백질에 있는 구멍의 특정 모양이나 아미노산들이 배치된 패턴과 상대의 특징들 같이 단백질과 생분자간의 모든 관계가 구조를 빼면 설명하기 힘듭니다.

그래서 단백질의 구조를 밝히는 것이 분자생물학, 세포생물학의 기본 원리를 밝히는 데 뿐만 아니라, 새로운 단백질을 디자인하고 약을 만드는 데 매우 중요한 도구입니다. 90년대 말의 히트작 항암제인 글리벡도 구조를 연구해서 기막히게 구멍을 메우는 약이죠.

구조를 그냥 보면 안 되나?

웬만하면 구조는 그냥 현미경으로 보면 가장 좋겠죠. 그런데, 단백질은 빛의 파장보다 짧은 구조를 하고 있기 때문에, 가시광선으로는 볼 수 없어서 현미경으로 볼 수 없고, 전자현미경이나 다른 원리를 쓰는 현미경들도 (적어도 아직은) 단백질 구조까지 보기에는 한참 힘듭니다. 그래서 사용하는 것이 일반인들에게 MRI로 유명한 NMRX레이 구조결정 두 가지 방법이 쓰이는데요, 보통 X레이가 여러 이유로 더 많이 쓰입니다.

X레이로 그냥 다 찍으면 보이면 좋은데, 이게 결정을 만들어야하다보니, 같은 분자를 다량 정제하는 것도 힘들고 결정으로 만들기도 힘든 고분자를 결정으로 만드는 것도 상당히 경우에 따라 다른 기술이 필요합니다. 그래서, 대량으로 찍고 싶다고 다 나온다기 보다는 관심이 많은 단백질들의 구조에 집중되어 있는 편입니다. 또한, 단백질 구조가 항상 같은게 아니라 꿈틀꿈틀 움직이기도 하고 아예 훽훽 움직이기도 하는데 그 움직임이 중요한 경우도 있어서 원하는 걸 다 얻기도 힘들고, 막 사이에 끼여있는 단백질 같은 경우엔 아예 원래 구조로 결정으로 만드는게 너무너무너무 힘들어서 지금까지 찍힌 것이 손으로 꼽을 정도가 되기도 합니다.

계산적 구조 예측

그래서 하는 것이 컴퓨터를 이용한 구조 예측입니다. 기본적으로 원자의 움직임은 물리역학적 특성을 따르기 때문에, 움직임이나 안정적 구조를 컴퓨터로 당연히 이론적으로 예측할 수 있습니다. 대표적으로 사용되는 방법은 분자동역학 시뮬레이션이나 몬테카를로 같은 것들을 쓰는데, 전자의 경우에는 계산량이 엄청나게 많아서 수십나노초(ns)가 넘으면 예측이 거의 불가능해집니다. 그리고 몬테카를로법이나 다른 변종들도 한계가 있습니다. (시작점을 잡기 위한 방법이나 지속적인 움직임을 보기 위한 다른 방법을 도입할 필요가 있죠.)

그 결과 결국 구조 예측의 주축은, 유사성 모델링이 되었는데, 기존의 비슷한 단백질의 구조를 가져다가 여기 저기 비슷한 부분을 잘라 붙인 다음에, 그걸 기존 방법으로 에너지 안정화 시뮬레이션을 좀 거치는 방법입니다. 기존 단백질 구조를 이용해서 완전 바닥이 아니라 벌써 한참 진행된 것을 가지고 하기 때문에 아주 효율적이고 비교적 정확한 결과를 얻을 수 있지만, 기존의 비슷한 단백질이 없으면 구조를 예측하지 못하는 한계가 있습니다. 그렇지만, 데이터베이스가 점점 커져서, 최근에는 단백질 예측에서 유사성을 이용하지 않는 것은 상상할 수 없을 정도가 되었고 데이터베이스 크기가 예측의 품질과 매우 밀접한 관계를 가지게 되었습니다.

구조 예측 대회 CASP!

이렇게 단백질 구조 예측이란게 아주 정의가 잘 된 계산 문제가 되다보니, 그 다음에 당연히 나올 수 있는 것은 초밥만들기 대회처럼 세계대회가 생기는 것이겠죠. 그 중 가장 큰 것은 단연 CASP입니다. 1994년부터 격년으로 하고 있는데 올해 대회는 얼마 전에 참가접수가 끝나고, 지금 한참 대회가 진행 중입니다.

요즘 유행하는 fold.it도 이 구조 예측 대회를 타겟으로 나온 것인데, fold.it을 만든 워싱턴대학(시애틀) 생화학과의 David Baker 연구실은 한동안 CASP을 휩쓸었던 먼치킨 그룹입니다. 여기는 애플과 비슷한 점이 많은데, 남들이 다 뻔히 될 것 같다고 생각하고는 있지만 실제로는 여러 이유로 안 해보는 것들을 아주 기발하고 멋진 해결책을 들고서 짠! 하고 만들어서 그걸로 굉장한 결과물을 만들어냅니다. 유사성 모델링에서 에너지 계산방법도 그렇고, 구조 데이터베이스 탐색법, 분산계산(Rosetta@Home)등 여러 가지가 그런데요, 이번에 fold.it도 종종 컨퍼런스에서 구조는 역시 사람이 보고 끼워맞추는게 최고다 그런 농담이 자주 나오는 걸 진짜로 게임으로 만들어서 수만명이 달려들게 만들어버렸습니다.

-ㅇ-; 그 결과 지금 fold.it에 슬슬 CASP문제가 나오기 시작했고, 올해 CASP 문제를 게임에서 수만명 플레이어가 여러가지를 아직 알고리즘으로 나오지도 않은 여러 직관을 써서 풀어놓으면 거기서 나온 구조로 CASP 답안으로 제출한다고 합니다. 물론 컴퓨터로 찾는 것 보다 완전 샅샅히 뒤지는 것은 안 되겠지만, 그래도 사람의 직관이 수만명이 모이면 그 힘이 어떻게 될 지는 상상도 안 가네요. 아마도 상당히 상위권에 들어갈 수 있지 않을까 싶습니다.

실제로 게임 안에 나오는 구조는 진짜 단백질 구조인가?

많은 분들이 물어보셔서 덧붙이자면, 게임 안에서 쓰이는 용어는 모두 실제 생물학에서 사용하는 용어이고, 구조에 큰 영향을 주는 요소들은 상당 부분이 게임 안에서 자세히 표현되어 있습니다.

앞으로 이런 게임이 어떤 것이?

직관으로 풀면 훨씬 간단한 NP-hard 문제들을 재미있는 퍼즐로만 만들 수 있다면 이렇게 잘 표현한 게임으로 만드는게 수천개 CPU 동원한 클러스터보다 효율적일 수도 있을 것 같습니다. 단백질 구조 외에도 계통 분류 최적화RNA 구조, 단백질-단백질/라이간드 도킹 예측/디자인, 단백질 유도 진화 등 재미있는 게 많이 있을 것 같은데 게임으로 과연 만들 수 있을지는 모르겠네요. ㅎㅎ;

댓글 6 개 | 트랙백 0 개 (보낼곳) | 태그 life computer


국회 의안공동발의 경향

Science에 3월 7일자로 COMPUTER SCIENCE: Science 2.0라는 Perspective가 올라왔습니다. 좀처럼 안 올라오는 CS관련 글이 최근에 몇 개가 연달아 올라왔는데, 그래서 보고 있다가 중간에 붙어있는 그림 1 (정치 네트워크)을 보고 우리나라도 이런 것 하나 그려보면 정말 재미있겠다 하고 완전 꽂혀서 최근에 그래프 툴도 하나 익혀야겠다 생각이 들어서 이걸로 주말을 날렸군요 -ㅇ-;

구체적으로 저 그림을 방법에 대해서는 나와있지 않아서 그냥 대충 그림 설명의 어감을 보고 따라해 봤습니다. 우선 국회법률정보시스템에서 17대 국회 중에 통과된 개정안을 모두 긁어왔는데요, 대략 2300건 정도 되는군요. 현재 국회의원직을 유지하는지 여부는 상관 없이 의안에 한 번이라도 개입했던 의원들 중 활동이 충분한 의원은 모두 대상으로 넣었습니다. 처리된 의안 중 정부가 제안한 것과 상임위원장이 올린 법안들은 누가 올렸는지 뚜렷하게 적혀있지 않기 때문에, "XXX의원외 ~명 발의"로 되어있는 것들을 추렸는데, 총 780건 정도 되는 것으로 결국 분석했습니다. 여기서 의안을 같이 발의한 경우에 1점씩 추가해서 각 의원간의 NxN 행렬을 계산했습니다.

아무래도 이런 방식으로 의안을 많이 올리는 의원도 있고 (최고는 220건), 중간에 사퇴하거나 보궐선거로 들어오거나 장관직 수행 등으로 참석 횟수가 적은 의원들이 있기 때문에 (최저는 대략 1~2회 내외), 각 참여의 중요도를 반영하기 위해 표준 점수(Z-score)로 계산하고, 양쪽 의원간의 상호 점수 중에 낮은 것으로 양쪽 모두에게 적용했습니다. 그리고, 이 그래프를 네트워크 분석 프로그램 중 가장 널리 쓰이는 Pajek에 넣어 분석했습니다. (사실은 NetworkX를 쓰고 싶었지만, 엣지가 너무 많아서 뻗어버리더군요 --;)

요렇게 나옵니다. 대략 사이언스에 나온 그림과 비슷합니다. 하하하 (괜히 뿌듯;;;;) 사실은 자격불만족이나 기타 다른 사유로 활동이 적은 의원들을 제거해서 바깥쪽으로 멀리 떨어져나간 점은 좀 쳐냈습니다. (구체적으로 자세히 보시려면 여기 --> Kamada-Kawai 레이아웃, Fruchterman Reingold 레이아웃)

구체적으로 숫자들로 데이터를 보면 상당히 재미있는 게 많이 있었는데, 그래프로 그려서는 어떻게 재미있는 걸 표현하기가 좀 힘드네요. -ㅇ-;; 제가 관심이 많았던 전/현 민주노동당 의원들 주변 자료만 좀 살펴보면, 작은 당들이 주로 자기들끼리 힘 모아서 같이 발의하는 경향이 훨씬 뚜렷하고, 표준 점수로 하다보니 다른 당 의원들과의 점수가 엄청 떨어지는군요. 전/현 민주노동당 의원들에서 밖으로 나가는 고리는 주로 강기갑, 최영순 의원이고, 재미있게도 민주당 비례대표 1번이었던 손봉숙 의원이 드물게도 대부분의 전/현 민주노동당 의원들에게 연결되어 있습니다.

혹시 나중에 또 새로운 툴 배울 일이 생기면 더 분석해서 올려 보겠습니다. =3=33

더 자세한 데이터에 관심있는 분들을 위해서 표준점수 데이터를 공개합니다. (사실 위 그래프 말고도 하나 더 그리긴 했는데, 설명을 쓰고보니 글이 너무 길어져 재미없어져서 설명은 생략합니다;;)

댓글 2 개 | 트랙백 0 개 (보낼곳) | 태그 life


"기계전자공학부"와 "바이오및뇌공학과"의 정체

저는 학부를 "기계전자공학부"에 다니고, 지금은 "바이오및뇌공학과"에 다니고 있는데요, 둘 다 전통적인 학과 이름이 아니라 마케팅용 과 이름이다보니까 본의아니게 "기계공학 전공하셨는데 컴퓨터는 어떻게 배우셨어요?" 질문도 엄청 자주 받는데다, 저희 가족들도 제가 무슨 과인지 아직도 모르는 뭐 그런 일이 있어서, 구체적으로 뭐 하는 과인지 약간 소개를 해 봅니다.

"기계전자공학부"는 교육부에서 한창 학부제 정책을 펼 때 학교에서 지원 받으려고 급조한 학부인데요, (마지막 학생운동이 있었던 바로 그) 1996년에 기계공학, 기계설계, 전기공학, 전자공학, 전파공학, 컴퓨터과학, 산업시스템공학 이렇게 7개가 합쳐서 기계공학, 전기전자공학, 정보산업공학 3개 전공으로 재편성한 광역학부입니다. 저는 정보산업공학(컴과+산시)으로 졸업했는데, 컴과과 산공을 약간씩 들어서 컴과라고 하기도 좀 그렇고 정보라고 하기도 좀 그렇고.. 애매하지만.. 기계과는 아닙니다. -ㅇ-;

이후에 2000년에 모집계열이 공대 전체로 통합되면서 3개 전공이 모두 별도 학부로 분리되면서 정보산업전공이 컴퓨터산업공학전공으로 바뀌고, 2004년에는 다시 2개로 원래대로 분리돼서 컴퓨터과학과와 정보산업공학과(원래는 산시)가 됐다가, 2007년에는 다시 공대의 비인기과를 모아서 공학부로 통합했다고 합니다. -ㅇ-;

"바이오및뇌공학과"는 사재기부와 정부의 매칭펀드로 마찬가지로 약간 독창적인(?) 방법으로 생겨난 학과인데, 처음에 이름은 "바이오시스템학과"였습니다. 학교 내에서 학부생을 모집하는 과 중에 유일하게 자연과학대나 공과대에 속하지 않은 과이기도 한데.. 좀 이상하죠; 원래 설립목적은 BT+IT였지만, 실제로는 BT+IT라고 보통 부르는 분야가 차지하는 비중은 그렇게 많지 않고, 공학을 도구로 해서 생물을 주제로 연구하는 여러 분야에 골고루 나뉘어 있습니다. 크게 나노나 MEMS, 뇌과학/신경공학, 계산생물학, 이미징/포토닉스 같은 것을 다루는 연구실들이 있습니다.

그러다가 2006년 말에 "바이오시스템"이 다른 학교에서 주로 농기계 관련 학과에서 많이 쓰인다는 얘기 때문에, 유학준비생들을 고려해서 미국에서 보통 많이 쓰는 이름인 "바이오메디컬공학과"로 개칭합니다. 그런데 관련된 타과의 극렬한 반대로 결국 학칙만 개정하고 공표는 못 하고 있다가, 결국 2007년에 정치적 타협으로 부르기도 이상하고 쓰기도 이상한 "바이오및뇌공학과"가 됩니다. 아직도 학교 안 다른 데서 과 이름 얘기하면 이상한 사람 취급합니다. -O-; 세글자 약어는 공식적으로는 "바공과"지만, 실제로는 과 안에서도 누구나 "바뇌과"로 부르고.. ^.^

이상한 이름 과만 돌아다니는게, 뭔가 알게모르게 유행을 좇은 결과는 아닌지 깊이 반성해 봅니다. -.-;

댓글 3 개 | 트랙백 0 개 (보낼곳) | 태그 life


미수다 첫째 줄은 의미가 있는가?

[알림] 이 글의 전개에 사용된 자료의 일부는 주관적 판단에서 도출된 것이므로, 전체적인 논리와 결론, 설명 등이 과학적으로 부정확할 수 있으니, 너무 진지하게 받아들이거나 정확한 결론으로 오인하지는 마시길 부탁드립니다.

KBS에서 오랫동안 방송하고 있는 미녀들의 수다를 작년부터 심심할 때 재미있게 보고 있었습니다. 여기서는 외국인 여성들이 4x4격자로 한 회에 16명씩 출연하는데.. (벌써 숫자부터가 심상치가 않습니다;; 2비트씩 총 4비트 어드레싱!) 항상 같은 사람이 나오는 게 아니라 일정 출연자 풀을 두고 약간씩 바뀌다보니 제작진이 때에 따라 자리를 배치합니다. 시청자들도 물론 어느 정도 패턴을 파악했겠지만, 작년 11월에 방영된 50회에서 출연자인 "따루"가 "뒷 줄보세요. 노처녀들 맨날 다 여기 앉았잖아요. 앞에 어리고 이쁜 애들 다 앉고~" 라고 얘기하면서 물위로 "꿍꿍이"가 떠올랐는데요. 그래서 그 때 과연 꿍꿍이가 어느 정도 수준인가 구체적으로 분석해보면 재미있을 것 같아서 이 분석을 하게 됐습니다. -ㅇ-;

우선 자리 배치를 어떻게든 데이터로 갖고 있어야하는데, 검색해 봐도 자리 배치가 데이터베이스화 되어 있는 곳은 따로 없어서 직접 방송 전 회를 다 확인해서 데이터베이스로 만들었습니다. ;; (혹시 더 분석해 보실 분들을 위해 공개합니다;;;;) 1회에서 63회까지 중에 13회와 23회를 뺀 총 61회분인데, 각각 설날특집, 개편기념 특집이라 자리 배치가 4x4가 아니다보니 이질적인 데이터라서 뺐습니다.

그래서 확인해 볼 가설들은 다음 것으로 정했습니다.

  • "어리고 이쁜 애들"이 정말로 집중적으로 앞에 앉는 경향이 있는가?
  • 제작진이 주장하는 해당 회차의 주제에서 재미있게 말할 수 있는가가 정말로 자리에 반영되는가?
  • 어느 줄이 진짜로 좋은 줄인가?
  • 세로줄 말고 가로줄은 영향이 없는가? 그리고, 세로줄과 가로줄의 상관관계가 있는가?
  • 52회 이후 따루가 아랫줄로 내려왔을 때 다른 사람들도 영향을 받았는가?

먼저 대부분 가설들이 "어리고 이쁜 애들"과 관련되어 있기 때문에, 어떻게든 정량적 통계를 적용하려면 그 정도를 정량화를 해야하는데, 사람마다 취향이 다르고 정량화를 하는 것도 여러 모로 문제가 많을 수 있기 때문에, 직접적으로 "어리고 이쁜" 정도를 정량화 하지는 않고, 시청자가 선호하는 정도에서 언어와 관련된 부분을 따로 떼서 나머지 부분을 "선호도"라는 주관적 기준으로 적용했습니다. 즉, 제가 마음대로 숫자를 줬다는 얘기죠 --;; 이 데이터는 인격권과 여러 가지 문제가 다분히 있을 수 있기 때문에, 통계에서도 직접적으로 노출되는 부분에는 사용하지 않고 데이터도 공개하지 않았습니다. 그리고 나머지 "해당 주제를 재미있게 말할 수 있는" 정도를 또한 제가 마음대로 정량화 해서 데이터를 만들어서 이 두 가지와 자리의 상관관계를 먼저 조사했습니다.

뭔가 의도에 맞춰 자리가 배치되었는가?

이 그래프는 카메라에서 보는 위치와 출연자의 선호도 평균값을 나타냅니다. 원 안의 색깔은 언어외선호가 낮을 수록 붉은색, 클 수록 밝은 초록색 (평균은 검은색)으로 나타납니다. 그리고 원의 크기는 해당 위치 출연자 데이터의 표준편차입니다. 대충 경향을 뚜렷히 눈으로 볼 수 있듯이, MC와 가장 가까운 왼쪽 맨 아랫줄 자리가 역시 가장 선호가 높은 자리로 볼 수 있고, 위로 갈 수록 낮아지는게 예측과 일치합니다. 그런데, 하나 예상과 다르게 나타난 것은 경향이 줄마다 있는게 아니라 약간 왼쪽으로 경사가 30도 정도 있습니다!

그 경향을 조사하기 위해서 몇 도를 회전하고 선형회귀를 했을 때 가장 목표값(선호도)과 상관관계가 높은지 보면, 25.8도를 회전했을 때 가장 높게 나타나는데 그 r값이 -0.974가 나옵니다. 물론 주관이 개입되었으므로 자주 보는 사람이 선호가 높은 등의 여러 문제가 있을 수도 있지만, 0.97이라면 그런대로 높은 상관관계라고 볼 수 있겠습니다. 그런데, 왜 25.8도를 회전해야 결과가 나왔는지를 조사해보자면, 패널 자리의 왼쪽은 MC와 방청객이 있기 때문에 카메라가 주로 오른쪽에서 접근하게 되는데, 대략 패널에 접근하는 카메라의 각도가 평균이 그 정도 되는 게 영향을 주지 않았나 생각됩니다.

그런데, 분산은 맨 아랫줄 2번째 자리와 2번째 줄 맨 오른쪽 자리가 분산이 상당히 적게 나왔고 다른 부분은 비슷한데요, 이 자리 둘에 대해서는 은연 중에라도 진짜 일관된 기준으로 배치한 것 같습니다.

그래서, 왼쪽 맨 아랫줄을 기준으로 잡아서 회전한 가로축에서의 거리를 "중심거리"로 정의해서 이를 자리가 제작진이 얼마나 별도의 기준에 따라서 배치하는가에 대해 아래에서 좀 더 조사를 했습니다.

반면에, 각 패널이 얼마나 한국어에 능숙한지를 가지고 관계를 보면 윗 그래프와 같이 전혀 다른 결과가 나옵니다. 언어에 능숙할 수록 뒤로 가는 경향이 있고, 왼쪽 맨 아래 자리만 유독 한국어에 미숙한 패널이 고정적으로 출연하는 자리로 잡힙니다. 그런데, 이 경우에는 경향이 있기는 해도 앞의 그래프만큼 뚜렷한 상관관계까지는 아닌 것으로 보입니다. 역시 "꿍꿍이"의 실체는 "어리고 이쁜 애들"에 훨씬 치우쳐져 있음을 알 수 있습니다.

각 자리들끼리 비슷한 패널이 앉는 자리가 있나?

어느 자리가 좋은지를 주관적인 데이터로 결론을 도출했기 때문에, 좀 더 객관적인 데이터로 경향을 참고해 볼 필요가 있어서 각 자리별로 해당 자리의 출연자와 다른 자리 출연자의 구성이 얼마나 비슷한가를 조사했습니다. 여기서는 1~2회만 출연한 사람들은 비교가 큰 의미가 없기 때문에, 10번 이상 출연한 31명에 대해서만 비교하였습니다.

밝은 초록색은 강한 상관관계, 붉은색은 아주 약한 상관관계, 검은색은 평균입니다. 11은 맨 앞줄의 맨 왼쪽을 의미하는데, 11과 3번째 줄 이후로는 다른 자리들보다 특별히 다른 것을 알 수 있습니다. 비슷한 부분을 보면, 맨 뒷줄의 왼쪽 3자리가 서로 굉장히 비슷하고, 맨 앞줄 중간 2자리와 그 다음 줄 중간 2자리가 서로 비슷합니다. 맨 오른쪽 자리들은 옆 자리들과 유사도가 좀 따로 노는데요, 이건 아무래도 맨 오른쪽 줄에 주로 키가 큰 패널들을 주로 배치하는 경향이 있어서가 아닌가 싶네요.

시간이 지나면서 꿍꿍이가 강화되거나 약화되었는가?

처음엔 의도가 없다가 중간에 생기거나, 패널 풀이 커지면서 다양성이 확보가 되었는지 등의 경향을 보기 위해 각 패널의 주변 5회에서 "중심거리"가 얼마나 변하는지 조사해 봤습니다.

윗쪽 그래프는 각 회별 주변 5회에서 연속 5회 모두 또는 4번 이상 출연한 패널이 얼마나 되는지를 나타내는데요, 처음에는 5번 모두 출연한 패널이 10~12명까지 되다가 점점 떨어지는 경향을 보면 패널이 다양화되는 경향이 좀 있는 걸 알 수 있습니다. 17회, 33회, 41회 같이 파란색, 빨간색이 위 아래로 피크가 반대로 떨어지는 곳을 보면, 둘이 따로 놀지 못하는게 역시 바뀌어 봐야 그 사람이 그 사람이란 걸 알 수 있구요.

아랫쪽 그래프를 보면, 처음엔 편차가 높다가 점차 뚝뚝 떨어지고 있는데요. 처음엔 자리잡기 전이라 좀 자리를 자주 여기저기 옮겨보다가 안정화 되고 나서 의도를 가진 꿍꿍이 배치가 시작된 것 같군요. 19회 ~25회 사이를 보면, 연속출연자는 상당히 많은데도 중심거리 표준편차가 뚝 떨어진게, 사람은 안 바뀌고 자리는 고정되고, 한참 식상하다는 소리를 집중적으로 듣던 시절이라는 걸 반영하고 있습니다.

패널들이 개인별로 시간이 지나면서 자리가 변하는가?

전체적인 평균 위치 말고, 개인별로도 시간에 따라 변할 수도 있을 것 같아서, 조사를 해 봤습니다. 전체 패널이 60명이 넘어서 다 그릴 수가 없다보니 자리가 특색이 있는 몇 명을 추렸습니다.

의도를 가지고 배치되는 중심 위치에서의 거리의 변화 (맨 윗 그래프)를 보면 1회부터 최근회까지 각각의 자리가 어떻게 변해왔는지를 보이고 있습니다. 굳이 따로 해석을 안 해도 그래프 자체가 추세를 보이고 있지만, 전체적으로 출연 초기에는 앞쪽에 있다가 점점 뒤로 밀려나가는 경향이 보입니다. 도미니크는 약간 좀 다른데, 앞뒤로 왔다갔다를 반복하고 있는데 주기가 빨라지고 있군요.

아래의 두 그래프는 그냥 데이터에서 바로 나온 세로줄과 가로줄 위치에 따른 것인데, 세로 줄은 대략 비슷하지만, 가로줄은 개인적인 추세만 봐도 전부 중간으로 몰려가는게 평균치로 수렴해버리는 게 그다지 의도적인 배치가 없다고 볼 수 있구요. 가로줄에서의 경향은 역시 한국어를 잘 못하는 자리에 고정배치된 엘리자베타와 키 큰 패널들만 집중적으로 앉히는 오른쪽 끝자리의 라리사의 경향을 파악할 수 있습니다.

어느 자리에 앉는 사람이 오래가는가?

패널들 중에서 50회를 넘게 출연하는 패널도 있는 반면에 1~2회만 출연한 패널들도 상당히 많습니다. 그래서, 어느 자리에 앉으면 장기 출연이 가능할까! 명당자리를 한 번 뽑아 봤습니다. 물론, 출연 하기도 전부터 제작진이 나름대로 판단한 것이 영향을 좀 미칠지도 모르겠네요.

붉은색은 해당 위치에 앉은 패널들이 출연횟수가 적고, 초록색은 많고, 검은색은 평균임을 뜻합니다. (원의 크기도 클 수록 출연횟수가 많습니다.) 여기서 보면 한국어 초보자 좌석인 왼쪽 맨 아랫자리가 역시 출연횟수가 두드러지게 적고 (24.27번), 오른쪽 윗줄은 오랫동안 꾸준히 출연하는 사람들의 자리(32.75번)입니다. 의외로 맨 뒷줄 왼쪽자리와 앞줄 3번째 자리가 출연횟수가 낮은데, 보통 새로 출연하는 패널들의 자리로 이 두 자리가 많이 활용되는 것 같군요.

결론!

미수다의 자리배치에는 뭔가 뚜렷한 경향이 있음을 알 수 있을 것 같고요, 제작진이 의도를 하건 안 하건 생각보다 다양한 요소들이 꾸준히 개입하고 있다는 것을 보았습니다. 좀 더 객관적인 자료를 위해서 방송에 나온 시간이나 방청객들의 반응 등을 모두 측정하여 사용했으면 더 좋은 자료를 만들 수 있었을 것 같은데, 좀 아쉽네요. (;;;;)

댓글 17 개 | 트랙백 0 개 (보낼곳) | 태그 life


유니크카드

얼마 전 애자일 블로그에서 언급유니크카드 어떤 건지 무척 궁금해서 저도 하나 만들었습니다. +_+ 발렌타인데이 특별세트를 무척 만들고 싶었지만, 아쉽게도 쓸 곳이 없어서 =___=;; (자작극이라도 부려 볼까!)

얼마 전 RCSB 에 올라왔던 달력 그림으로 만들어서 12종으로 50개를 채웠습니다. 킁킁. 단백질 하나 하나 그림으로 이렇게 보니 친구 같고 해서 뿌듯합니다. -ㅇ-; 뒷면의 설명은 대충 원문에서 번역을 해서 만들었습니다. 일단 실험실 동료들은 좋아하는 단백질 2~3개 씩 달라고 하고 매우 좋아하긴 하는데... ;;;;

당신과 비슷한 단백질은 어떤 것인가요! (심리테스트라도 하나 만들어 보면 재미있겠네요 ;;;_-_)

유니크카드 품질은 마음에 드는데, 케이스가 우그러져서 오는 것이 해결되면 좋겠고, 100장에 3만원이라던지 좀 더 많이 싼 가격으로 인쇄할 수 있는 상품이 나오면 좋겠습니다.

댓글 1 개 | 트랙백 2 개 (보낼곳) | 태그 life


2007 대선 득표수와 구글검색결과의 관계

선형회귀식: {득표수} = 1.257 × {구글검색결과} - 634445

  • 구글검색결과와 실제 득표수의 Pearson 상관관계: 0.98796
  • 동아일보 마지막 여론조사와 실제 득표수의 Pearson 상관관계: 0.98598
  • 네이버검색결과와 실제 득표수의 Pearson 상관관계: 0.95919

댓글 13 개 | 트랙백 2 개 (보낼곳) | 태그 life


점쏙옙 드디어 출판업계 진출

실험실에 웬 모르는 곳에서 잡지가 하나 와서 뜯어봤더니, KIPA에서 발행하는 공개S/W리포트가 왔네요. 전에 기획사에서 블로그 글을 사용해도 되겠냐는 문의가 와서 동의했더니 잡지를 보내준 것 같습니다. :) 그 결과.. 지난 4월 19일에 쓴 "정겨운 깨진 한글들"이란 글이 인쇄매체에 실려서.. 결국 "占쏙옙", "홰聆究셀", "C>H3gGO" 등 어두운 곳에서 울고 있던 깨진 한글들이 인쇄되어 빛을 보게 되었습니다. -ㅇ-;

내용은 뭐 블로그에서 약간 추린 내용이라 그다지 새롭지는 않습니다. ^^;;

댓글 5 개 | 트랙백 0 개 (보낼곳) | 태그 life


구글이 투자한 생명공학 기업 23andMe

오늘 실험 돌려놓고 여기 저기 돌아다니다가, 22일에 나온 뉴스 구글이 생명공학으로 가다라는 기사를 발견했습니다. 오우~ MS가 합성생물학에 투자하더니 뭔가 붐인가 싶어서 약간 더 찾아봤더니, 생명공학에 투자했다는 것 보다, 투자받은 회사가 세르게이 브린의 부인이 창립한 회사라는 것으로 더 많이 제목이 뽑혀있네요.

투자받은 회사인 23andMe가 뭐하는 회사인지 무척 궁금해져서 홈페이지를 뒤져봤는데, 아직 신생기업이라 자세한 설명은 없고 구인과 간단한 소개가 나와있네요. 첫페이지의 소개를 보면, 국내에서도 뉴스 같은 데서 자주 소개됐었던 아이템인 유전자 정보를 이용해서 조상찾기, 가계도 찾기, 유전 형질 알기 같은 것들을 제공한다고 합니다. 이미 워낙 오랫동안 다른데서 하고 있는 거라서 이런 말만 써가지고 과연 투자를 받을 수 있었을까 궁금하긴 하지만, 구인 프로필이나 설립자들의 소개에 보면 좀 더 자세한 아이템들을 알 수 있을 것 같은 말들이 섞여 있네요~

Wojcicki의 소개에 보면 개인 유전 정보를 제약회사에서 약 개발을 위해서 사용할 수 있게 제공해 주고, 일반인들이 자신의 유전적 정보를 보고 배울 수 있게 하는 것이 목적이라고 합니다. 즉, 개인들에게 유전자와 관련된 재미있는 서비스들을 제공해 주면서 그걸 다른 데도 쓸 수 있게 동의를 받아서 제약회사에 그 정보를 팔겠다는 목적인 것 같죠. 좀 사업을 생각해 보면, 재작년에 BiDil의 FDA승인 이후에 뜨겁게 달아오르고 있는 유전특성이 있는 약을 위해 개인화 정보가 굉장히 중요해 지고 있는 상황에서, BiDil의 테스트킷을 대체하는 용도로 약이 타겟으로 할 만한 주요 SNP에 대해 지갑에 넣어다니는 RFID같은 걸 개발하면 쓸모가 있을 것 같기도 하고 그렇습니다. 으흐흐;

그리고 구인 페이지의 내용을 보면 "애자일 개발", C++, Python의 유연함, AJAX, MySQL 등이 언급되는 걸 보면 역시 구글의 강한 영향력 밑에 있다는 것을 알 수 있고, Flash까지 얘기가 나오는 걸 봐서는, 유전자 검사에서 나온 정보를 최대한 사람들이 재미있게 쓸 수 있게 화면을 예쁘게 하거나, 아니면 아예 간단한 커뮤니티나 외부에 제공하는 위젯 같은 서비스도 할 수 있지 않을까 생각됩니다. (전체 여남은명 모집에서 UI 관련 인력이 무려 3명이나..)

대충 IT쪽 분야는 구글 스타일 그대로 따르면서, 생명공학 분야로 진출하는 회사가 생기는 것을 보니 무척 흥미롭습니다. MS가 투자하는 바람에 가뜩이나 저작권 문제가 불안한 합성생물학 분야에도 구글이 투자를 좀 했으면 하는 생각이 드는군요.

댓글 1 개 | 트랙백 0 개 (보낼곳) | 태그 life


자리 구경~

이제 컴퓨터도 받고 대충 자리 정리가 끝나서 기념으로 집들이(?)를 한번 해 봅니다. ^.^ 대체로 다 선물 받은 것으로 가득차 있는 것이.. 역시 더불어 사는 인생입니다.;;;

오늘은 대전에도 눈이 무지 많이 왔어요~ 내일 눈싸움이라도 한 판 해야겠네요. 기대된당~ ^^

댓글 17 개 | 트랙백 0 개 (보낼곳) | 태그 life


내가 전산학과에 가지 않은 이유

제가 작년에 대학원 전공을 정한 이후 거의 만나시는 분들마다, 왜 열심히 하던 전산이 아니라 다른 걸로 하게 되었냐는 질문을 많이 하셨습니다. 사실 열심히 생각을 정리해서 정한 것이 아니라, 대충 엄부렁한 상태로 묘하게 끌려서 다가가게 되었는데, 여러차례 질문을 받으면서 답했던 것들을 생각나는대로 대충 모아서 글로 옮겨봅니다. ^_^

저는 현실적인 목표가 있는 것을 좋아합니다. 프로그램을 만들어도 가까운 사람이 무척 필요로 하거나 아니면 누가 칭찬해주거나 하다못해 저라도 잠시 필요해야 뭔가를 만들게 되더군용~ 그래서 지금까지를 생각해 보면 전산은 그 자체가 삶의 목적이었다기 보다는 주변 사람들에게 관심을 끌거나 칭찬받거나, 아니면 회사에서 붙어있기 위한 수단이었을 뿐이었다는 것을 느낍니다. 그래서 병역특례가 끝나가면서 전산을 오랫동안 계속 하려면 뭔가 새로운 목적이 필요하다는 생각에 허전한 마음이 많았습니다.

그리고, 사실 전산을 하다보면, 자기의 그런 목적을 자기가 정하는 것이 아니라 회사의 경영진이나 시대의 흐름, 커뮤니티의 환경에 따라서 결정이 되다보니, 정말 재미를 느끼는 목적이 아닌 것을 그래도 따라가야하는 경우도 생기고, 직접 결정한 것이 아니라 애착이 안 생기는 경우도 많고 그렇잖아요~ 예를 들어, 네트워크 전송 기술에 관심이 많아서 그쪽을 전공한다고 해도, 결국 사람들이 그걸로 뭐에 써먹을지는 모를 일이니, 시장의 눈치나 투자자의 눈치를 봐서 뭘 할지 결정해야 하고..

그런데 마침, 생물과 관련된 교양서를 여럿 읽고 있었기에, 결국 저도 그렇고 주변 사람도 그렇고 모두 사람이다 보니 누구나 생물에서 나오는 혜택을 직접적이거나 간접적이더라도 별로 멀지 않게 바로 느낄 수 있겠다는 생각과 소프트웨어만 해킹할 게 아니라 생명체도 해킹대상으로 좋지 않을까 하는 생각에 완전 매료되는 바람에 복학 뒤에 뒤늦게 생물 수업을 듣기 시작해서 결국 이렇게 되었습니다.

뭐 물론 새로 선택한 분야에서도 과정 중에 어쩔 수 없이 해야하는 내키지 않는 중간 단계가 없지는 않겠지만, 결국 적용되는 분야가 이제 70이 넘으셔서 귀도 잘 안 들리시는 외할아버지/할머니께도 "약 만들어서 사람들 치료하는 데 쓰이는 기술을 만들어요"라고 쉽게 설명할 수 있다는 점에서는 한동안은 열심히 노력할 수 있을 것만 같습니다. ^_^*

뒷이야기
실제로 그 대화는 이랬습니다. =.=;

퍼키군: 약 만들어서 사람들 치료하는 데 쓰이는 기술을 만들어요.
외할아버지: 아~ 약만든다고?
퍼키군: 아니요. 약만드는 사람들을 도와주는 기술을 만들어요.
외할아버지: 아~ 약사발 같은 것 만드는거여?
퍼키군: (차마 더 설명은 포기;) 아아 네 ;;;;;

댓글 19 개 | 트랙백 0 개 (보낼곳) | 태그 life


16년 전, 책 한권

잡지 같은 데서 유명한 사람들 인터뷰를 보면 "나를 만든 책" 이라면서 어릴 때 읽은 책 한 권이 큰 영향을 미쳤다고 소개하는 경우를 종종 봅니다. 근데, 저는 암만 생각해 봐도 어릴 때 책은 안 보고 맨날 오락이나 하고 놀아서 잘 생각이 나지 않았는데, 마침 이번에 이사하면서 대청소를 하다가 반가운 책을 하나 발견하고 자랑해 봅니다. ^_^;

91년에 친구가 5색 칼라 디스켓 경품을 준다는 말에 꼬여서 동네 컴퓨터학원에 간 후로 시키는 대로 잘 되는 것이 신기해서 이 책도 사고 저 책도 사고 했는데 이 책도 그 중의 하나입니다. 내용은 당시 컴퓨터 잡지에 늘 나오던 BASIC 언어 소스가 가득한 그냥 그런 내용인데, 소재로 게임이 대부분이긴 했지만, 장르도 다양하고 "수명 점치기", "엘리자와 대화", "성격 테스트", "일정 관리" 같은 아주 간단한 여러 프로그램들이 있어서 100~200줄 정도만 열심히 치면 짠! 하고 책에 나왔던 프로그램이 진짜로 모니터에서 보였습니다. 감동~ =)

뭐 사실 이런 책이 알고리즘 같은 것을 배우는 데는 큰 도움은 안 되었겠지만, 코딩을 계속 재미로 할 수 있는 동기를 만들어주는 소재의 원천이 된 것이 큰 도움이 되지 않았나 합니다. 수명 점치기는 한글판으로 사전 찾아가며 번역하고 지문도 추가하고 UI도 만들고 해서 친구들한테 디스켓에 복사해 줘서 결과 파일 받아다가 통계도 내고 그랬었는데, 생활 속에서 늘 이런 저런 소품 프로그램을 만들어서 놀고 그런 것이 이때가 시작이었던 것 같네요. 으흐흐~

그 때 봤던 컴퓨터 잡지는 "학생과학" 이라고 하는 잡지 부록인 "컴퓨터랜드"를 봤는데요, 맨날 본권인 학생과학은 보지도 않고 던져놓고 컴퓨터랜드 뒤에 나오는 BASIC 소스만 사자마자 며칠 밤을 새서 치고 그거 고치면서 노느라 학교에서 43/50 등도 자주 해 보고.. 으흐흣 -ㅇ-; 위의 사진은 컴퓨터랜드에 응모해 본다고 만든 디스켓에 나름대로 장식이랍시고 디스켓 껍데기를 저렇게 만들었는데 --; 지금 보니 완전 유치하네요. ^^;; 당시에는 그래도 멋지다고 쓴 것 같은데;;;;; 디스크 레이블지에 보면 HELP를 HALP라고 커다랗게 써 놓았는데, 당시에 대구에서는 저걸 "암호"라는 전문용어로 불렀는데 그 뜻은 "실행파일명"이라지요. ^_^;;

요즘은 컴퓨터를 처음 시작할 때 일반적인 아이들이 배우는 과정에서는 조그만 장난감이 적은 편인데, 아무래도 앞으로 교육과정이 많이 발전하여 우리나라에서도 피코크리킷이나 비스킷 같은 재미있는 것들이 많이 도입 되었으면 좋겠습니다. 그렇지만, 당시에는 그래도 어른들이 평소에 쓰는 프로그램 비슷하게 아이들도 만들기가 쉬웠는데, 요즘은 거의 불가능하다는 점이 시간의 흐름이 아쉽긴 합니다.

댓글 18 개 | 트랙백 0 개 (보낼곳) | 태그 life


대전으로 이사 완료~

9년동안 살았던 정들었던 신촌을 떠나서 대전으로 이사를 마쳤습니다. 하하 뭐 이사한다고 2달동안 글을 안 쓴 것은 아니고요, 왠지 손이 안 가서 -ㅇ-;;

대전 공기는 맑지만 기숙사 방은 문은 녹슬어있고 샤워실 타일은 온통 곰팡이에 장판은 너덜너덜 일어나려고 그러고 있긴 하지만.. 뭐 그래도 그나마도 없는 것보다는 낫다는 생각에 잘 적응해 보려고 마음 굳게 먹고 있습니다;;

23일에 입학하고 26일에 졸업하니 23~25일 간에는 학생^2인 셈입니다. 백수 생활도 못 하고 ㅡ.ㅜ;

이제 대전으로 터를 옮겼으니, 조만간 파이썬과 루비에 관한 세미나를 대전에서 한 번 해 볼까 생각중입니다. 얼마 전에 생물정보학S/W워크샵 2007 에서 루비를 사용했었는데, 루비도 상당히 재미있더군요. ^.^;;

그럼 조만간 대전에서 번개를 한 번~ :)

댓글 26 개 | 트랙백 0 개 (보낼곳) | 태그 life


노벨상 받는 법

PLOS에 올라왔던 How to Win the Nobel Prize?에서 짧게 몇 가지 강조한 것들을 보니까 예전에 학교에서 했던 수상자들 강연과 통하는 부분이 있네요. 그래서 옮겨적어 봅니다.

  • 명료하고 간략하게 글을 쓰는 방법을 배워라. 과학에서 많이 생기는 문제가 바로 과학자가 이해하기 힘든 사람이 돼 버려서 자기 노력을 헛되게 한다는 것이다.
  • 마음을 넓게 하고, 문화적인 인식을 하라. 다른 사람들이 성취한 것들에 대해서 알아두자. 모든 젊은 과학자들은 가능하면 적은 적을 두는 것이 중요하다는 것을 자주 상기할 필요가 있다.
  • 시간은 귀중하다. 여성들은 특히 "위원회에 의한 죽음(death by committee)"에 취약하며 그들의 항의가 몹시 필요하다. (무슨 뜻인지 짐작만 갈 뿐 정확히는 모르겠군요;;)
  • 멋있는 관리자격 직위를 맡는 것을 피하라. 이것이 바로 파멸의 근원이다. 특히 임상의 출신들은 더욱 그러하다. 나는 이제 괴롭힘 당하는 총장을 맡고 있기 때문에, 이 점의 중요성에 대해서 강조할 수 밖에 없다.
  • 오래 살아라. 어떤 것을 발견한 것을 노벨상으로 인정받으려면 50년이 걸릴 수도 있다.

오래 살아야 한다는 것은 모든 수상자들의 조언에 나오는 공통적인 조언이군요. 으흐흐. 멋있는 관리직을 피하라는 것이 중요하게 다가옵니다. 아무래도 개발자들도 관리직의 유혹에서 벗어날 수 있어야 지속적으로 자기 하고 싶은 걸 할 수 있는데, 맨날 어디 TV나가고 정치하러 다니는 교수님들보면 연구 언제할까 생각이 들 때가 있더군요. 특히 저 글 안에서 "노벨상을 받는 것은 곧 사생활이 없어지고, 연구에 필요한 창의성과 자기반성을 앗아갈 수도 있기 때문에, 어쩌면 절대 그 행사 분위기에서 회복할 수 없을지도 모른다"라고 하고 있는데, 만약에 지금까지 한국에서 노벨상 후보로 올라갔던 김성호박사님 같은 분들이 진짜로 수상을 했으면 언론과 정부에서 얼마나 괴롭혔을까 생각을 해 보니까 참 아찔 하긴 하네요. -O- 연구 업적이나 그 중요성은 여전히 대단하지만 변한 것은 노벨상 받고 안 받고 밖에 없는데 말이죠.

한편, 노벨상을 받은 사람이 있는 동일한 연구분야에서 더 좋은 업적으로 더 유명해진 다른 과학자들이 역사에 상당히 많이 있는 것을 보면, 과장해서 노벨상 때문에 인생을 말아먹었어요 -ㅇ- 라고 마치 복권맞은 것 때문에 인생이 바뀌었다는 사람도 있지 않을까 생각을 해 봅니다. 크흐흐. 재미있는 것을 오랫동안 하고 살기 위해서는 역시 전략을 잘 세워야겠습니다. +_+

댓글 8 개 | 트랙백 0 개 (보낼곳) | 태그 life


SoC2006 티셔츠

오늘 학교갔다 와 보니 티셔츠가 왔네요~

미국 애들이 워낙 덩치가 크다는 얘기를 들어서 M으로 주문했더니 약간 작은듯한;; (95와 100 사이쯤 되는 크기군요~)

댓글 2 개 | 트랙백 0 개 (보낼곳) | 태그 life


파이썬 포트 문제와 Innovative Whack Pack

지난 대안언어축제에서 아마도 가장 긴 여운을 남겼던 것은 아무래도 마지막 자기 포부를 말하고 주변에서 환호성으로 축하해 주는 것이었습니다. 그게 원래 할 계획이 있었던 것이 아니라, 그 전날 다음 날 회고를 안 지겹고 인상에 남고 흥미롭고 지쳤을 때도 다 같이 좋은 분위기에서 참여할 수 있는 걸 찾기 위해 열심히 찾아낸 끝에 나온 아이디어였습니다. 그게 갑자기 뚝 떨어진 게 아니라, 뭘 할지 무척 고심을 하다가, 여유있게 어슬렁거리던 창준형이 갑자기 "비장의 무기를 준비했지!" 하고 자신있게 스으윽 꺼낸 것이 바로 Creative Whack Pack 이었습니다. 카드를 몇장 들고 보고 있으려니 갑자기 승범이가 "이게 좋을 것 같아요!" 그러더니 막 아이디어를 쏟아내는데... 흐흐 무척 탐나서, 돌아와서 바로 아마존에 주문해서 구입~ 마침 결제하려고 보니 아마존에서 할인 기간이라고 수퍼 세이버 시핑을 하는데 뭘 더 사면 싸다고 추천을 해주길래 Innovative Whack Pack도 샀지요. 순간 아마존의 상술에 속아서 -ㅅ-;

음 하여간, 요새는 FreeBSD의 파이썬 포트 때문에 무척 고생을 하고 있었습니다. 거의 1주일 넘게 거의 모든 여유시간을 포트 고치는데 쓰고 있는데도 아직도 고칠 게 200개 넘게 남았군요. =_=;;; 이번에 어찌하다가 6.2을 위한 포트 프리즈 직전에 파이썬을 2.5로 업데이트하게 되었는데, 그게 알고보니 대략 4가지 정도 되는 다양한 문제를 만들게 돼서, 파이썬을 쓰는 다른 포트들이 거의 500개 남짓 깨져버린 것이었습니다. 당연히 수많은 사람들이 메일링 리스트에서 난리가 나고, 포트매니저들도 말하고 그러지 그랬냐고 핀잔도 주고.. 아하하; 파이썬 2.2, 2.3, 2.4도 늘 프리즈 직전에 임포트 했었는데.. 관성이 문제를 일으키는군요 --;

점점 문제가 마치 괴혼에서 쓰레기 굴리듯이 불어나서, 2.4로 돌리느냐 문제를 계속 고치느냐 고민을 하고 있던 중에, Innovative Whack Pack을 한번 써 볼까 하고 손에 들었습니다. 사실 카드를 사긴 했지만, 학교 수업들을 다 순수과학 2학년 전공 과목을 듣다보니 쓸 일이 전혀 없더군요. 그래서 일단 마구 섞고, 3장을 뽑았습니다. 나온 것이 위의 3장~ insight 면에는 그림과 Heraclitus의 짧은 경구들이 있습니다. 그리고, strategy 면엔 밑의 문장이..

짧게 요약해 보면,

  • Donkeys prefer garbage to gold: 지금 열심히 하는 게 나중에도 중요한 일일까? 어떤 상황이 되면 그 가치가 변할까? 지금 생각하고 있는게 나중에는 쓸 모가 없어지지 않을까?
  • When there is no sun, we can see the evening stars: 문제에서 떨어져 봐라. 지금 해결하려는 문제에서 떨어져서 잠시 쉬면서 생각해 보았는가?
  • Sea water is both pure and polluted: for fish it's drinkable and life-giving; for humans undrinkable and destructive: 문맥을 바꿔보아라. 어떤 다른 문맥에서 니 생각을 다르게 생각해 봤니? 의미가 어떻게 변하니?

그래.. 가만 생각해 보니, 지금 포트를 열심히 욕먹어가면서 고쳐봐야 뭐 나중에는 별로 티도 안 날 것이고, 지금 남들이 고이 보지 않아서 조바심내가면서 하고 있는 포트 작업들도, 프리즈 기간이 아니라 그냥 평상 시 같았으면 잘한다고 고맙다고 그럴 작업이었던 것입니다. 으흐흐. 그래 파이썬 2.5를 넣어야 된다는 것을 먼저 불변의 목적으로 딱 박아두고 모든 것을 생각하고 있었는데, 그냥 빼버려도 별 상관 없을 것 같다고 생각하니 홀가분하고 좋습니다. ^_^* 이제는 프리즈 기간 직전에 이런 짓 안 해야겠습니다;;;

평소에 포팅을 하다 보면, 문제를 해결하는 방법이 무척 많은데, 뭘 선택해야할 지 고민할 때가 많습니다. 그래서, 포팅할 때 고려해야 할 때 선택이나 아이디어에 도움이 될 만한 것들을 모아서 portlint 같은 데서 엉뚱하게 한 개 씩 출력해줘도 좋지 않을까 생각을 해 봤습니다; 그런데 아무래도 카드로 만들어야 뽀대가.. 흐흐;

댓글 8 개 | 트랙백 0 개 (보낼곳) | 태그 python freebsd life


마음 속에서 알을 키우자

오늘은 수업 대신 노벨포럼에 동원되어 다녀 왔습니다. 흑흑. 휴강 안 하는 수업이랑 시간이 안 겹쳐서 듣고 싶은 것도 못 듣고 엉뚱한 것을 듣고 있으려니 초등학교 때 운동회 연습하던 생각이 새록새록 나는군요. 뭐 그래도 괜히 노벨상을 받은 사람들이 아니라는 생각이 드는 말을 많이 듣고 왔습니다.

출석체크용 도장 -o- (옆에 볼펜 빌려준 아저씨 고맙습니다;;)

오늘 들은 세션은 과학 교육에서의 정부, 산업계, 대학의 역할에 대한 것이었습니다. 물리학상을 받은 Murray Gell-Mann교수, 小柴 昌俊 (고시바 마사토시)교수, 화학상을 받은 Aaron Ciechanover교수가 참석하여 어릴 때 교육 받은 과정에서 겪은 멘터들의 도움이나 황씨사건에 대한 사회적인 책임, 앞으로 아시아에서 과학자들을 배출하기 위해 해야할 일 같은 것들에 대해서 토론하였습니다. 그런데, 패널로 나온 질문자들이 질문을 너무 길게 동어반복을 해서 너무 지루하더군요. 듣는 사람 생각도 좀 해 줘야지.. 어디 정치연설하나.. 으흐.;

음 하여간 오늘 고시바 교수님의 말씀은 아주 인상적이었습니다. 이거 어디다가 막 적어두고 싶었는데 마침 펜을 안 들고가서 -o-; 말을 꺼내기 전까지는 의자에 앉아있기도 불편한 나이든 할아버지처럼 보였지만, 질문에 대답하면서 후배들에 대한 조언에서 배어나오는 그 뭔가의 포스.. 그 중에 가장 기억에 남는 건 "마음 속에서 알을 키우자" 이야기였습니다.

질문은 "요즘 인터넷 인구도 정말 많고, 정보도 쏟아지고 학문의 범위도 넓어져서 학생들은 무엇을 보고 듣고 익혀야할지 판단하기가 쉽지가 않다. 어떻게 하면 좋을까?"라는 것이었습니다.

그에 대해 고시바 교수님의 대답의 요지는 "과학자는 마음 속에 알을 세개, 네개 정도 품고 그 알을 키우는 마음을 생각하면 좋습니다. 그 알은 각각 자기가 이루고 싶은 것을 구체적으로 판단한 것이죠. 너무 쉽게 이뤄질 만한 것이 아니면서도 원대하면서도 구체적이면 좋습니다. 쏟아지는 정보와 조언들, 선택의 갈림길에서 자기가 키우고 있는 알들에게 어떤 것이 도움이 될까 생각을 해 보면 판단이 쉬워집니다. 관련되지 않은 것이라고 생각되면 그냥 버려도 되죠. 어차피 이미 세계에는 혼자서 다 읽을 수 있을 양보다 훨씬 많은 정보가 있으니까요. 그렇게 알을 키우다보면, 어느새 새가 되고 닭이되어서 깨어나게 될 것입니다. 그렇지만, 이런 기준 없이 뭐가 좋다더라 하는 얘기만 듣고 휩쓸리는 사람들은 다른 사람들의 뒤를 따라 여기 저기 떠다니다가 뭔가 이뤄낼 수가 없어요."

그리고, 고시바 교수님도 고등학교, 대학교 때 성적이 상당히 안 좋았다고 합니다. 그래서 노벨상을 받기 직전 모교에서 초청받은 졸업식 연설때도 성적이 그렇게 안 좋았는데, 졸업식 연설을 해도 되나 망설였다고 하네요. ^.^

그래서, 성적이 안 좋은 50%의 학생들에게 전해주고 싶은 이야기가 있다고 이렇게 말씀을.. "성적을 잘 받으려면 우선 교수님의 말을 잘 듣고, 책을 잘 읽고, 연습문제를 잘 풀고, 숙제를 잘 하고, 열심히 외워서, 시험을 잘 봐야합니다. 주로 수동적인 능력들이죠. 사람(the human being)의 능력은 이런 수동적인 것 말고도, 창의적인 것을 생각하고, 그것을 실현하고, 동료들과 대화하고, 다른 사람들과 협업하는 등의 여러가지 능력이 더 많이 있습니다. 학교 성적이 안 좋다고 비관하지말고 자기가 잘 하는 다른 능력이 어떤 게 있는지 찾아서 더욱 키워 보세요. 그러면, 성적이 나빠도 저처럼 모교 졸업식 연설을 할 수 있답니다."

킁킁. ^_^; (저를 포함한) 학점 나쁜 분들 힘냅시다. -ㅇ-;;;;;

댓글 7 개 | 트랙백 2 개 (보낼곳) | 태그 life


근황

한동안 서버가 죽어있다가 이제는 글이 없으니 뭔가 사이트가 죽지는 않았을까 생각하시는 분도 있으실 것 같아서, 근황 업데이트를 해 봅니다. ^^;

  • 전에 많은 분들의 정말 친절한 조언들을 듣고 대학원 지원을 했습니다. 그래서 며칠 전에 대전에 내려가서 면접을 보고 왔는데, 과연 붙을 수 있을 지는 아직 모르겠습니다. 과 역사상 지원자 중에서 학점이 가장 낮다더군요. 하하하 ^^;;
  • 내일부터 대안언어축제 2006에 참가합니다. 제가 진행하는 세션은 토요일 마지막 시간에 들어가 있는데, Io 언어 문법을 발견하는 시간을 가져보려고 합니다. 대안언어축제에 참가하시는 분들은 저를 보시면 꼭 아는척 해 주세요 ^.^
  • 오랜만에 파이썬 마을에서 9월 15일~16일 중 하루에 작은 세미나를 하려고 합니다. 아마 신촌 토즈에서 하지 않을까 생각되는데, 이번의 주제는 TurboGearsdjango입니다. 혹시 당일에 20명 내외가 2시간 정도 모일 수 있는 장소를 무료로 제공해 주실 수 있는 분은 도움 주시면 고맙겠습니다~ (토즈에서 하면 참가비를 유료로 해야 해서..)
  • 파이썬 2.5는 공식적으로 9월 12일에 발표될 예정입니다. 지금 해결되지 않은 이슈가 몇가지 있긴 한데, 대부분 2.5.1로 미루고 우선 그냥 릴리스를 할 것 같네요.
  • 저도 맥북을 샀습니다. ^^;; 그런데 원래 쓰던 Vaio T70을 팔아야 하는데 잘 안 팔리는군요; 혹시 관심 있는 분들은 한 번;;
  • libgcrypt SVN (svn://cvs.gnupg.org/libgcrypt/trunk)에 드디어 SEED가 정식으로 들어갔습니다.
  • 드디어 학부 마지막 학기 개강입니다. 거의 10년 다녔네요..; 혹시 이번 학기 교과서 중에 쓰시던 책 필요 없으시면 싸게 중고로.. ^^;

댓글 19 개 | 트랙백 0 개 (보낼곳) | 태그 life


애자일 컨설팅의 영향력!

어제 저도 여기 올린 적이 있는 대안언어축제 2006 참가신청이 굉장한 성황을 이루며 불과 하루만에 150명이 마감되고 대기자가 거의 20명이 되고 있습니다. 상상을 뛰어넘는 이 상황에 아주 감동받고 있습니다. -O-; 처음에 소프트웨어진흥원측과 얘기할 때 과연 200명의 열성적 참가자를 쉽게 모을 수 있을까 생각을 했었는데, 이거 400명으로 해도 며칠 안 가겠네요! +_+

과연 어디서 오셨을까 궁금해서, HTTP 참조 페이지 주소로 통계내어 보았습니다. (방문 수)

애자일 컨설팅의 위력이란! 이번 대안언어축제는 상당히 XP적인 분위기가 날 것 같습니다. ^.^ 게다가, 전체 방문자 수가 250명을 넘지 않는데, 170명 정도 신청하셨다는게, 대안언어축제 참가자 분들은 모두 열의가 가득차 계실 것 같네요!

이제 대기자가 쌓이고 있지만, 그래도 혹시나 꼭 참여해야겠다 싶으시면, 자주 방문하시면 언젠가 깜짝 등록이 약간 있을 지도 모르겠습니다. :)

댓글 5 개 | 트랙백 0 개 (보낼곳) | 태그 life


수요일에 밤을 새면

여전히 드는 무의식중에 생각이..

4시부터 7시까지 나우누리 정기점검하느라 심심하겠다;

댓글 0 개 | 트랙백 0 개 (보낼곳) | 태그 life


대학원 지원에 대한 조언을 구합니다~

언제 졸업할 지 까마득했던 저도 이제 2007년 2월에 졸업하게 되었습니다. ^^; 하고 싶었던 길에 좀 더 가까이 가기 위해서, 여러모로 알아봐서 이제 다음 주부터 원서를 접수하는 대전에 있는 모대학의 바이오시스템학과에 지원해 보려고 합니다.

그래서 여러 분야에 경험이 많으신 오픈룩 독자 여러분께 조언을 구해 봅니다. 뭔가 구체적으로 물어볼 것이 있는 것은 아니고요~ 원서 작성할 때 알아두면 좋은 점, 인터뷰 들어갈 때 알아두면 좋은 점 이라던지 연구실 선택의 주의점, 다른 학교가는 것이 좋지 않겠느냐 등등 여러가지 임의의 주제 어떤 말씀이든 좋습니다~

주변 설명을 드리자면, 저는 지금 다니고 있는 과는 기계전자공학부인데, 전공은 정보산업공학입니다. 그리고, 부전공으로 생명공학을 하고 있긴 하지만, 아직 1학기 남았기 때문에 부전공 승인이 난 상태는 아닙니다. 생물 분야에서는 아직 시작한지 얼마 되지 않아서 기초적인 유기화학, 생화학, 미생물학, 물리화학, 생체공학 같은 것만 들었고요, 분자생물학이나 세포생물학은 다음 학기에.. 제 관심 분야는 단백질 3/4차 구조/기능 예측, 컴퓨터-보조 단백질 설계, complex gene regulation network modelling 분야입니다. 그리고, 난감하게도, 다른 보통 지원자들에 비해서 학점이 택도없이 낮기떄문에 별로 상황이 좋지는 않은 편입니다. 아하하 ^^; (그래도 혹시나 하고 한 번 --;)

말씀 부탁드리며 (_ _)*

댓글 19 개 | 트랙백 0 개 (보낼곳) | 태그 life


PuTTY 사용법이 나온 책~

KLDP의 GunSmoke님께서 쓰신 책에 친절하게 한글PuTTY를 소개해 주셨습니다. 책 제목은 《Fedora 리눅스 네트워크 & 웹 서버 무작정 따라하기》 이네요~

책 내용은 제가 페도라를 써 본적이 없어서 잘 읽어보지는 않았지만, 다음에 페도라 쓸 일이 생기면 한번;; -O-; 표지가 무척 깔끔하고 제책이 튼튼하게 잘 되어 있으니 리눅스 시스템 관리자로 입문하시는 분들은 옆에 두고 보기 괜찮을 것 같네요. ^^;;

댓글 3 개 | 트랙백 0 개 (보낼곳) | 태그 life


오픈맨3

머지 않은 미래, 인류의 새로운 진화 단계로 호모 사피엔스 오픈소스라는 돌연변이가 나타 났다. O-인자라는 유전자를 갖고 태어난 아이들은 사춘기가 지나면서 그들의 의식을 깨닫고 본능적으로 남들이 하지 말라는 것을 답답해 하기 시작한다. 다른 사람들은 때론 강력한 이들의 정보 능력으로 인해 무서워하며 피하기도 한다.

이 무렵 세상은 "그물 간 항해자(이하 항해자)"라는 답답한 도구의 자본적인 독점에 의해 일반인들 모두가 중독되어 있었다. 그러나, 돌연변이들은 항해자 뒤에 숨어있는 폐쇄성에 참을 수가 없어서, 항해자가 나오기 이전 시대의 여러 도구들을 모으기도 하고, 새로운 도구들을 만들기도 하지만 기존에 중독된 사람들과의 의사소통에는 어려움이 있었다.

세계에서 가장 관심력이 강해서, 척 보면 버그가 어디 있는지 잡아내는 찰스 디버거 교수는 어린 돌연변이를 가르치고 자신의 힘을 기르기 위한 소스대장간이라는 학교를 만들어서 아이들을 모아 가르치고 있다. 반면, 디버거 교수의 절친한 친구인 에릭(마그네트)은 나치가 자기 블로그에 트랙백 스팸을 날린 것에 대한 분노를 갖고 있어서 자신과 의사소통이 되지 않는 서버들은 IDC에 쫓아가서 자석을 넣어버리고 올 정도로 과격한 행동을 하였다.

디버거 교수의 학교에는 “오픈맨”이라는 집단이 있었는데, 마그네트 같은 과격한 돌연변이들과 일반인의 충돌이 있을 때 그 사이를 중재하여, 돌연변이들도 사회의 일원이 될 수 있도록 하는 역할을 하였다. 오픈맨은 꼬리 9개로 정보가 스스로 모이도록 하는 강력한 힘을 가진 "불여우"(진, 아명은 불새였다), 그리고 천둥과 번개를 마음대로 조절하면서 서버에 접근할 수 있는 "천둥새"(오로로), 남들이 서버에 접속하는 것을 모두 순식간에 기록할 수 있는 "로그"(메리), 차갑고 시원한 음악을 다른 사람들에게 전달할 수 있는 "얼음방송"(바비) 등이 있었다.

마그네트의 과격한 행동에도 동조하는 이들이 있었는데, 이들은 자신들을 형님들이라고 불렀다. 형님들에는 뭐니뭐니해도 인증서를 자기 마음대로 조작해서 다른 사람인 척 접속할 수 있는 "미스티크"가 마그네트가 자석을 휘두르고 다니는 행동을 거리낌 없이 하는 데 많은 도움을 주었다.

그러던 와중, 일반인들은 자신들과 다른 돌연변이들이 자신들이 안 쓰는 이상한 까만색 프로그램들을 깔아서 쓰는 것을 보고 두려움을 느끼기 시작하였다. 결국, 이들을 자본의 흐름에 편입시켜서 일반인으로 만들고자, 항해자를 말만 잘 들으면 몰래 받아서 쓸 수 있는 "큐어" 와레즈 서버를 제공한다고 선언하였다.

돌연변이들은 자신들이 살아 있는 동안 영원히 마음껏 쓸 수 있는 것을 원했고, 자신들의 힘을 포기하지 않겠다는 세력이 많았지만, 그래도 "로그"같이 평소에 주변 사람들이 "넌 로그를 너무 많이 남겨. 너 때매 디스크도 맨날 풀나잖아!"라고 해서 재능에 대한 자괴감을 갖고 있던 돌연변이들 일부는 "큐어" 와레즈에서 불법 소프트웨어를 받고 은행도 갈 수 있게 되었다.

그러나, 여전히 다른 돌연변이들은 억지로 항해자를 쓰는 것에 대한 거부감을 가지고, "형님들"은 본격적으로 자신들이 직접 접속할 수 없는 은행들에 자석을 던지기도 하고, 불을 뿜기도 해서 자신들의 권리를 주장한다. 그러나, 오픈맨들은 이런 그들의 행동이 오히려 일반인들의 반감을 일으켜서 조화를 이루기 힘들다고 생각하여 "형님들"의 행동을 제지하여 서버를 방어하도록 도와 준다.

그후 그들은 어떻게 되었을까! (뒷 이야기 공모 중 -ㅇ-)

댓글 10 개 | 트랙백 0 개 (보낼곳) | 태그 lif