life – Page 2 – OpenLook

혈액형과 성격 – 그 애증의 대화 주제에 대해

March 27, 2017September 23, 2008 by hyeshik

미용실에서 보는 패션잡지들엔 항상 빠지지 않고 혈액형 운세, 조언이 나오고 기사엔 연애, 회사생활, 입을 옷, 신발 등등 주제에 상관 없이 여지없이 혈액형별로 분석이 따로 붙습니다. 술자리에서 이런 저런 얘기를 하다보면 서로 "넌 O형일 것 같아!" 같은 예측이라던지, 자기 친구 연애 얘기, 자기 연애 얘기에 꼭 빠지지 않죠.

그런데 왜 하필이면 ABO식 혈액형이 성격과 연관이 있다는 설이 퍼지게 된 것일까요. 그 둘을 짝지어 인기있는 대중지식으로 만들어 낸 것은 일본의 후루카와 다케지(古川竹二)가 1927년에 연구, 발표¹한 것이 시초인데, 그 후 곧 사라졌다가 1970년대에 노미 마사히토(能見正比古)가 제대로 수행된 과학 실험은 아니지만 대중의 구미에 맞게 구성해 출판한 것이 대유행을 하면서 퍼져나가게 되었습니다.² ³ 보통 혈액형-성격 연관설은 한국과 일본에서만 유행한다고 알려져 있는데, 서양에서도 한국이나 일본 수준은 아니더라도 어느 정도 유행한 적이 있고⁴ 대만에서도 고등학생의 반 이상이 혈액형/성격에 관련된 책을 읽어본 적이 있다고 합니다.⁵ 그런데, 1927년 당시에는 알려진 혈액형 분류가 몇 개 없었기 때문에 ABO가 선택될 수 밖에 없었는데, 30가지 가까이 되는 혈액형 분류 체계가 알려져 있는 지금⁶ 책이 나왔다면 어떻게 됐을지 무척 궁금해지기도 하네요.

그래도 모호한 말로 "그렇느리라"하고 설명하면 믿게되는 포러 효과(Forer effect)이건, 자기 유형에 대한 설명을 자꾸 들어서 그에 맞게 행동하게 되는 노력이건,⁷ 종종 맞다고 느끼는 경우가 아예 없는 것은 아니기에 한 번 제대로 알아보려고 조사를 해 봤습니다.

혈액형과 성격이 밀접하다는 얘기

일본학자들의 글에서 시작된 것이기는 하지만, 일본 밖에서 나온 대중서들도 통계를 기초로 해서 제법 그럴듯하게 들리는 설명을 하는 것들이 있습니다. 가장 큰 자료를 사용한 것이 D’Adamo⁸의 "혈액형에 맞는 음식을 드세요"⁴인데요, 여기서는 MBTI 검사와 혈액형을 2만명 정도 데이터를 모아서 분석을 한 결과 "O형은 외향적이고, A형은 내성적이고, B형은 독립적이고, AB형은 직관적이더라" 하는 얘기를 합니다.⁹ 그리고, 인도 대학생 600명¹⁰, 미국 대학생 96명¹¹, 환자 20명 정도의 병에 대한 반응¹²을 분석한 것에서도 모두 비슷하게 O형은 외향적, A형은 .. 등등 비슷한 결과를 얻었습니다. "B형이 신경과민이더라"도 역시 빠지지 않고요. 심지어, 일본과 문화적 거리가 꽤 있어 보이는 그리스, 이탈리아에서도 이런 혈액형과 성격에 대한 진지한 통계가 나온 적이 있다고 합니다.⁹

혈액형과 성격이 아직 유효한가?

90년대에 "유전자"가 성격에 40% 이상 영향을 미친다는 사실이 알려졌지만¹³ 21세기 들어서 혈액형이 성격과 관련되어 있다는 연구는 종적을 감췄습니다. 오히려 대규모 조사를 통해서 기존에 알려졌던 연관성들이 전혀 통계적인 의미가 없다는 것이 밝혀졌는데요. 대표적으로 Cramer와 Imaike는 캐나다에서 대학생 446명을,¹⁴ Rogers와 Glendon은 미국에서 헌혈한 360명을,⁹ Wu 등은 대만에서 고등학생 3396명을 대상으로⁵ 조사했습니다.

이들은 공통적으로 현재 심리학에서 성격을 다룰 때 가장 널리 쓰이는 성격 5대 특성을 NEO-PI-R 조사법으로 정량화했습니다. 이 성격 5대 특성은 개방성, 성실성, 외향성, 친화성, 신경성을 말하는데, 대체로 알려진 혈액형-성격 관계가 이 특성들로 거의 직접 설명이 되기 때문에 검증하기에도 매우 적당한 지표라고 볼 수 있습니다. 정밀하게 조절한 이들 통계에서 도수가 작은 극히 일부를 제외하고는 기존에 알려졌던 혈액형-성격 연관성들이 모두 통계적 유의성이 없다고 밝혀져서, 최소한 B형이 신경질적이다, A형이 소극적이고 내향적이다, AB형은 제 정신이 아니다 등의 오명은 벗을 수 있게 됐습니다.

그럼 2만명은 모두 거짓말인가?

앞에서 D’Adamo의 2만명 MBTI 자료나 20세기의 여러 논문에서도 분명히 제법 많은 수로 통계를 냈는데 그럼 그때는 사기를 쳤던 걸까요? 위에서 조사한 논문들에서는 이렇게 설명합니다. MBTI 2만명은 MBTI유형이 통념적인 혈액형-성격 유형들과 서로 딱 맞아떨어지는 게 아니라 대충 맞는대로 끼워 넣은 것도 있고, 혈액형 조사를 검증하지 않았기 때문에 오염된 시험지 답변이 많이 섞였을 것이라 합니다.⁵ 그리고, 다른 연구결과들에서도 대체로 조사 대상의 과부족이나 각 혈액형, 성격별 집단 크기의 차이, 통계 유의성 해석의 문제 등 통계 기법상의 문제점들이 하나 이상씩 지적되었습니다.⁹ 아무래도 통계란게 이해당사자들의 충분한 공방없이는, 보고자 하는 건 뭐든 찾을 수 있는 무서운 도구죠.

의외의 재미있는 결과

대만에서 고등학생을 조사한 Wu의 연구에서는 혈액형과 성격의 연관성은 발견하지 못했지만, 재미있는 사실을 하나 밝혔는데요. 몸무게와 키의 비율로 결정하는 BMI지수와 자존감이 남학생은 관련이 없지만 여학생은 상당히 관계가 있다는 것을 밝혔습니다.⁵ 그런데 더 신기한 것은 비슷한 조사를 미국에서 했을 때는 여학생도 관련없음으로 나왔다는 것입니다. 아시아권에서의 여학생들의 몸매와 자존감. 뭔가 할 말이 많이 있을 것 같네요. 그리고, 새로운 경험에 대한 개방성이 외향성과 오히려 역 관계가 있다는 것도 재미있는 발견이었는데요, 오히려 외향적인 학생들이 새로운 경험을 거부하는 경향이 있었다고 합니다.

논문에서 직접 설명하지는 않았지만, 표에서 발견할 수 있었던 또 하나 재미있는 것은, 이 조사에서 질문한 "혈액형과 성격의 관계를 믿나요?"하는 질문에 대답한 비율이 성적이 높은 학생들이 안 믿는다고 대답한 경우가 뚜렷하게 더 많았다는 것입니다. 성적이 높은 아이들이 아무래도 똑똑한 척을 하는 것일까요? -ㅇ-;

그리고, 성격에 영향을 주는 요소는 여러 조사들에서 성별차이와 사회적 배경이 상당히 커서 혈액형 차이와는 비교할 바가 안 된다고 합니다.⁹ 그렇다고 어릴 때 어떤 동네 살았고, 어머니는 집에 얼마나 계시고, 형제는 얼마나 있고 이런 걸로 성격 유형 분류하고 그러면 혈액형 로망하고는 전혀 달리 너무 현실적이 돼서 하나도 재미 없겠네요. ?

사실 생물학적으로 결정되는 간단한 것 중 성격에 강하게 영향을 주는 것으로는 태어난 순서가 있습니다.¹⁵ 첫째냐 둘째냐 막내냐 이런 거죠. 여러 연구에서 외향성, 개방성 등과 밀접한 관계가 있다고 밝혔습니다.

O형이라고 모두 같은 O형인감

통계적으로 연구한 것들을 살펴보았으니 생물학적인 특성을 좀 알아보겠습니다.
겉으로 보는 표현형과는 달리 유전형들은 A, B, O에서 좀 더 자세히 분류됩니다. A와 B는 서로 다른 모양을 만드는 대등한 크기인데, O는 진화과정에서 중간이 짤려버린, 단순히 보면 불량품이라고 볼 수 있습니다. 그런데, 여러 유전적 지표들을 보면 O가 오히려 A에서 갈라져 나온 신상품(?)이고 B가 그 이후에 A에서 갈라져 나왔습니다.¹⁶ A에서 O가 갈라져 나왔듯, A자체도 A1과 A2타입이 있고, O도 3가지 유전자형이 널리 퍼져 있습니다.¹⁷ (이 유전자형은 표현형은 거의 같은 유전형 분류입니다.)

한편, O는 보통 유전에서 매우 치명적인 중간에서 짤린 불량인데도 살아남아 꾸준히 증가한 것은, O형이 병리적으로 장점이 있기 때문입니다. O형은 암, 혈전증에서 A형보다 유리하고, 대장균/살모넬라/폐렴균 감염에서 B형보다 유리합니다.¹⁸ 반면에 A형과 B형도 나름대로 O형에 대한 강점이 있는데, O형은 위염의 주원인인 헬리코박터 파이로리에 잘 감염되고, 페스트, 콜레라에도 약합니다. 이런 특성은 면역세포가 침입균을 인식하기 위한 용도로 세포겉에 있는 당을 많이 사용해서, 혈액형에 따라 당 모양이 달라져 생산할 수 있는 항체의 종류가 달라지기 때문입니다.¹⁹

자기에게 A, B항원 모두 있기에 A항체와 B항체를 모두 생산하지 못하는 AB형은 비브리오로 가득찬 물을 마셔도 콜레라에 안 걸릴 정도라는 것 외에는 전반적으로 다른 혈액형에 비해 별로 장점이 없는데요, 그럼에도 불구하고 AB형이 꾸준히 남는 것은 보통 A형과 B형이 따로 있을 때의 장점이 있다보니 유전적 친인척들이 유리해서 덩달아 남게되는 이형접합 특혜(heterozygous advantage) 때문이라고 추정합니다.²⁰

우리 생물 선생님이 유전학적으로 관련이 있을 수도 있댔어요

혈액형-성격 연관성의 생물학적 원리로 제가 들어본 것 중에 가장 설득력이 있었던 것은 성격에 관련된 유전자들 중 몇 개가 혈액형을 결정하는 유전자 근처에 연결돼 있어서 같이 다니는 경향이 있다는 것이었습니다. 유전학에서 유전적 연결(genetic linkage)은 두 유전자가 염색체 안에서 가까이 존재할 때 염색체 엇갈림이 일어날 확률이 적어서 서로 독립적이지 않게 유전되는 현상을 말합니다. 즉, 긴 국수에 점을 두 개 찍어놓고 아무데나 칼을 쳐도, 점이 가까우면 다른 조각으로 잘 나뉘지 않듯, 혈액형을 결정하는 ABO 유전자 주변에 성격에 영향을 주는 (예를 들면 도파민 수용체 같은) 유전자가 있어서, 길다란 유전자에서 아무데나 짤라도 둘이 웬만하면 같이 다니는게 아닐까 하는 설명이죠.

(아래 두 문단은 유전학적 설명이 들어있으니 관심없으신 분은 다음 부분으로 넘어가세요)

이걸 검증한 논문은 검색해도 특별히 없어서 한 번 간단하게 계산해 봤습니다. 유전적 연결 거리는 서로 따로 떨어질 확률이 1% 정도 되는 거리를 뜻하는 centimorgan으로 재는데요, 사람의 경우에는 1 centimorgan이 대략 100만 bp정도 됩니다.²¹
넉넉하게 아주 극적인 상황을 가정해서 소수 그룹이 한국에서 3000년 동안 대략 100대를 내려온 상황을 보겠습니다. 한국인의 혈액형 비율에²² 맞춰 평형상태에 있을 때의 개별유전자 비율은 O:A:B가 53:26:21 정도 됩니다. 이 비율로 100대를 내려오면서 각 타입과 가상의 성격 유전자가 얼마나 섞이는지 한국인 인구변화²³를 참조해서 시뮬레이션해 보면 1 centimorgan만 돼도 100대면 거의 섞여버려서 구분이 안 될 정도입니다. (상세한 파라미터는 생략)

그럼 아주 넉넉하게 잡아도 ABO 유전자에서 100만 bp 안쪽에 성격과 관련된 유전자가 있어야 직접적으로 가설이 성립됩니다. 그래서 UCSC 유전체 브라우저에서 주변을 찾아보면 100만 bp 안쪽에 유전자가 대략 70개 정도 들어가 있는데, 특별히 신경계통이나 신경분화에 관련된 유전자는 보이지 않습니다. 물론 간접적인 요소나 아직 밝혀지지 않은 작은 RNA같은 것들로 조절이 된다는 시나리오를 완전히 배제할 수는 없지만, 그래도 ABO 유전자 하나가 성격을 강력하게 조절한다는 얘기를 하려면 그런 식으로 간접적으로 조절되는 시나리오는 보통의 유전자 조절 특성을 볼 때 설득력이 매우 떨어집니다. 아주 정밀한 검증은 아니지만, "유전적 연결" 때문에 한국에 지역적으로 생겼다는 것은 맞는 것 같지는 않습니다.

그런데 왜 사람들은 혈액형 성격점을 그렇게 믿고 싶을까?

혈액형 성격학의 대성공은 그 단순함과 다른 전통적 요인들(인종, 사회적 지위 등)과는 달리 상당히 중립적인 지표라는 것이 큰 작용을 했습니다. 심지어 우생학자들이 정치를 하던 시대에도 O형은 죽여야돼! 이런 얘기는 한 번도 나오지 않았으니까요.²⁰

그런데, 아무리 통계학을 배운 이공계생들이라도 실제로 친구들과 얘기하면 혈액형이 의외로 잘 맞다는 느낌을 많이 받습니다. 왜 그럴까요? 기본적으로 혈액형은 4가지 표현형이 있어서 맞힐 확률은 육감적으로 25%입니다. 그런데, 실제로 한국에서 혈액형 분포는 A형이 34%이고 O형이 28%, B형이 27%를 차지해서²² 그냥 A형이라고 찍으면 맞힐 확률이 34%나 됩니다. 게다가 "A형이야?" "아니. 뭐게!" "음.. 그럼 O형인가?" 이런 식으로 꼭 2번은 물어보고서 2번 만에 맞혀도 아 역시 맞는거야 하고 감동하는데, 2번 만에 맞힐 확률은 62%나 되죠. 육감적으로는 25%인 걸, 실제론 62%로 맞힐 수 있으니 혈액형 성격이 잘 맞다고 생각하는 건 어찌 보면 당연할 지도 모릅니다.

일본에서 사람들이 혈액형 성격을 왜 그렇게 좋아하는가에 대한 연구가 있었는데, 바로, 개인의 정체성을 명료하고 간단하게 정의하고 싶은 욕구가 강하게 작용한 것이라고 합니다.²⁴ 예전에 비해서 많은 사람들과 만나는 반면 가까운 사이는 더 줄어들 수 밖에 없는 현대 사회에서 자기 정체성을 간단하게 정의하고 싶은 욕구가 혈액형 말고도 사람들이 MBTI, 애니그램 등 많은 성격유형 검사를 사랑하는 것으로 또한 표출되는 것인지도 모릅니다. 다만 혈액형 검사는 수십~수백개에 달하는 지문에 대답하지 않아도 간단하게 알고 있기에, 자기 정체성을 간단하게 정의해 주는 사랑받는 분류법으로 사용되고 있는 것이겠죠.

이제 기술의 발전으로 곧 혈액형에 상관없이 서로 수혈해 줄 수 있게 됩니다.²⁵ O형만 너그러운 사람이고 AB형은 이기적인 성격이다 하는 설명은 이제 유효기간이 얼마 안 남았습니다.

Furukawa, T. (1927) A study of temperament by means of human blood groups. Japanese Journal of Psychology, 2 612-634.↩
B형남자, 당신은 색다른 피가 아니다. 한겨레신문, 2005↩
Nomi, T. and Besher, A. (1988) You Are Your Blood Type, Pocket Books.↩
D’Adamo, Dr. Peter J. (2002) The Eat Right for Your Type: Complete Blood Type Encyclopedia. Riverhead Trade.↩
Wu, K. et al. (2005) Blood type and the five factors of personality in Asia, Personality and Individual Differences, 38 797-808.↩
Table of blood group systems. International Society of Blood Transfusion↩
Walden 3: 혈액형과 성격은 아무런 관계가 없다 ↩
이 사람은 이걸로 혈액형에 맞게 먹는 법, 요리하는 법, 사는 법, 아기 키우는 법 등을 시리즈로 책을 내더니 혈액형 식이요법 사업으로 본격적인 전도를 하고 있기도 합니다.↩
Rogers, M. and Glendon A. I. (2003) Blood type and personality, Personality and Individual Differences, 34 1099-1112.↩
Jogawar, V. V. (1984) Personality correlates of human blood groups. Indian Journal of Clinical Psychology, 11 5-8.↩
Lester, D. and Gatto, J. (1987) Personality and blood group. Personality and Individual Differences, 8 267.↩
Neuman, J.K. et al. (1991) Relationship between blood groups and behavior patterns in men who have had myocardial infarction. Southern Medical Journal, 84 214–218.↩
Jang, K. L. et al. (1996) Heritability of the big ﬁve personality dimensions and their facets: A twin study. Journal of Personality, 64 557–591.↩
Cramer, K. M. and Imaike, E. (2002) Personality, blood type, and the five-factor model. Personality and Individual Differences, 32 621-626)↩
Puts, D. A., O brother, where are thou? The fraternal birth-order effect on male sexual orientation. Proceedings of National Academy of Science of the USA. 103:10531-10532.↩
Saitou, N. and Yamamoto, F. (1997) Evolution of primate ABO blood group genes and their homologous genes. Molecular Biology of Evolution, 14 399-411.↩
Seltsam, A., et al. (2003) The nature of diversity and diversification at the ABO locus. Blood 102 (8): 3035–42.↩
Berger, S. A. et al. Relationship between infectious diseases and human blood type. European Journal of Clinical Microbiology and Infectious Disease, 8 681-689.↩
Garratty, G. (1994) Do blood groups have a biological role? Immunobiology of Transfusion Medicine Dekker, 201-255.↩
Ridley, M. (2000) Genome. Harper Collins Publishers, pp. 140.↩
Scott, M. P. et al. (2004) Molecular Cell Biology, Fifth edition. W. H. Freeman.↩
Statistics on annual blood donations 2002-2007, Gyung Nam Blood Center (연결이 끊긴 것을 위키백과 페이지에서 참조)↩
"사서에 나오는 동이 인구의 변화" (원문이 연결이 끊겨서 엠파스 지식인에 복사된 것을 참조)↩
Nagata, Y. (2000) Social psychological factors of interest in lay personality theories: why is ABO blood-typing popular? Japanese Journal of Psychology. 71 (5):361-9.↩
Liu, Q. P. et al. (2007) Bacterial glycosidases for the production of universal red blood cells. Nature Biotechnology 25 (4): 454–464.↩

Review Android Smartphone

“누가 저녁 2시(?)에 만나나요?”

September 19, 2008 by hyeshik

“오후 2시에 만나요!” 또는 “저녁 7시에 보자!”하고 약속시간을 정할 때 말하는데요.
언젠가 문득 “저녁 2시에 보세!”또는 “밤 5시 30분에 강남역 6번 출구로 나와~” 하면
잠시 그게 언젠가 생각하며 정적이 흐를 것 같은 상황이 막 떠올랐습니다. ㅎㅎ;
그래서 한번 미투데이에서 설문조사(?)를
해 봤는데요, 저녁 2시와 밤 5시가 모두 이상했는지 팽팽하게 의견이 엇갈리는군요.

역시나 또, 좀 이상해도 간편하고 금방 나오는 조사를 하려고 그냥 구글 조사로 해 봤습니다.
조사 방법은 구글 한국어검색으로 장소 “저녁 2시” 식으로 “장소”라는 단어와 같이 나오는
오후/저녁/밤 뒤에 시간이 연달아 나오는 걸 조사했습니다. 물론 약속장소와 상관 없는 글도
많이 딸려나오겠지만, 뭐 이걸로 밥먹고 사는 것도 아니고 그냥 재미로 간단하게 하는 거죠. ^_^;;

오후/저녁/밤을 따로 따로 나눠서 살펴보면 이렇게 나옵니다.

약속시간으로 많이 잡는 시간 (오후/저녁/밤)

의외로 이른 오후시간이 많이 나와서 직접 구글검색 결과를 살펴보니까, 개인적인 약속들보다는
행사나 교육 관련된 시간들이 검색에 많이 잡히다보니 그렇게 나온 것 같네요. 하나 재미있는 것은
“저녁 1시”나 “저녁 2시”로 부르는 사람이 진짜로 있긴 있다는 건데요. 아무리 많아도 100건이
안 될거라고 생각했는데 “저녁 1시”는 무려 1만건이 넘게 나옵니다. -ㅇ-;

그리고 대략 트렌드는 6시까지는 오후라고 부르다가 7시부터 저녁이라고 많이 부르는데, 7시만
저녁으로 많이 부르고 그 다음부터는 확 줄어듭니다. 역시 표준저녁만남시간(!)은 7시인 것입니다. +_+

여기서 시간대별 차이를 무시하고 오후/저녁/밤으로 부르는 비율만 강조해서 보기 위해 서로 비율을
맞춰보면 이렇게 됩니다.

오후/저녁/밤으로 부르는 비율

대략 5시까지는 오후가 압도적이다가 저녁이 7시 때 최고로 올랐다가 8시부터 슬슬 밤으로 많이 부릅니다.
재미있는 것은 벌써 9시부터 밤이나 오후라고는 부를지언정 저녁으로 부르는 건 상당히 줄어들었다는
것이군요. 굳이 생각해본 적은 없지만 저녁은 7시 8시에만 통용되는 모양입니다~ 그래도 여전히 “저녁 11시”라고 부르는 사람도 꽤 많습니다. 크.. 그리고 11시가 되면 밤이 오후보다 더 많습니다. 오후 11시하면
아무래도 오후 9시 보다는 감이 확 떨어지는게 살짝 오전 11시랑 헷갈리는 기분도 좀 들고 역시 그렇네요.

그리고 오후/저녁/밤을 모두 통합해서 보면 (모두 오후시간대)

약속시간으로 많이 잡는 시간 (오후)

저녁 7시가 역시 약속시간으로 최고 인기를 달리고요. 8시부터는 6시 이전보다 약합니다.
의외로 9시, 10시, 11시가 고른 분포를 보였는데 검색 결과를 살펴보면 사실 11시가 진짜로
약속시간으로 많이 잡힌 것은 아니고, 영업종료시간이나 방송시간 같은 의도하지 않은 결과들이
많이 섞여 나와서 그렇게 된 것입니다. ^^;;;

간단한 조사결과라 크게 신빙성은 없지만, 그래도 밤 5시, 저녁 2시로 부르는 사람이 적잖이 있다는
사실을 발견했군요. 🙂

참고: 검색 결과에서 오전 1시~4시를 “밤”으로 부르는 것을 빼기 위해 검색에서 밤 1시~4시는 뺐습니다. 검색수는 2008년 8월 25일에 구글 한국 사이트에서 한 결과의 추산값을 썼습니다.

2009년 공휴일은 과연 특이하게 저주받은 것일까?

September 2, 2008 by hyeshik

블로그에 돌아다녀보면 공포의 2009년 달력에 대한 글들이 많이 올라와 있는데요. 공포다, 저주다! 다들 공휴일이 어떻게 이렇게 토, 일요일과 겹칠 수가 있느냐에 대한 분노(!)를 드러내고 있습니다. ^.^;;

공돌이가 이런 상황을 보면 처음 떠 오르는 것은 역시 “과연 p-value가 얼마나 되길래 저렇게 호들갑이야?” 므흐흐;;; 그래서 음력 계산이 간단하게 가능한 1882년부터 2050년까지 2008년에 시행 중인 공휴일을 기준으로 해서 얼마나 공휴일이 겹치는지 봤습니다. 물론 시행 당시의 공휴일로 계산할 수도 있겠지만, 이번에는 다른 변인은 빼고 순수하게 공휴일끼리 겹치는 것이 이정도로 일어나는게 특이한 것인지 보는 것만 하기 위해서!

그런데 마침 찾아보니 토끼군님이 만들어 두신 양음력 변환 모듈이 있어서 생각보다 훨씬 쉽게 일이 되었네요. 2009년이 이렇게 떠들썩 한 것은 추석과 개천절이 겹친 것도 원인 중 하나라서, 토/일이 아닌 공휴일 수가 며칠이나 되는지로 계산했습니다. 2009년은 신년, 설날 2일, 어린이날, 추석 1일, 크리스마스 해서 6일 밖에 안 됩니다. 자 그렇다면 1882년부터 2050년까지 중에서 평일이 공휴일이 되는 날 수의 분포는 어떻게 될까요~

1882~2050년 월~금 공휴일 횟수 분포

2009년이 6일인데, 6일이 무려 1882년부터 2050년 사이에 딱 2년 밖에 없습니다. p-value로는 0.012정도 되는데, 샘플이 169밖에 안 되는 데서 0.012라면 제법 재수가 없는 셈입니다. 쉽게 말해서 85년에 한 번 정도 일어나는 일인 것 +_+ 사람들이 저주받은 해 운운할 만하군요~ 2009년 말고는 1914년이니까 공휴일 계산에서는 의미없는 해입니다. 그러니까 2050년까지는 다시는 이런 일은 없을 거라는거죠. -ㅇ-;

위 분포를 보면 보통 11일 근처에서 많이 걸리는데 공휴일이 기가 막히게 흩어져서 무려 13일이나 쉬는 해도 3년이나 됐는데, 1960, 2031, 2042년입니다.. 까마득하네요. ㅡㅡ;

자 그럼 최근 연도들이나 머지않은 연도들에서 토/일을 제외한 공휴일 수 (2008년 시행 공휴일 기준)가 어떻게 변하는지 한 번 살펴봅시다.

2003~2029년 월~금 공휴일 횟수 변화 (2008년 공휴일 기준)

2009년만 6일로 푹 떨어진 것 외에는 대체로 9일~11일 사이에서 안정적이군요. 그런데 2010년도 8일로 그다지 많은 편은 아니라는.. 2년 연속으로 공휴일이 적네요. 크흐. 2001년이 공휴일이 상당히 많았다고 나와 있는데, 2001년은 사실 놀았던 기억밖에 없어서 일년 내내 공휴일이었던 것 같은 느낌이 –

자 통계적으로도 2009년은 공휴일이 엄청 겹친 무서운 해입니다. 힘내서 연차 씁시다. -.-b

오픈룩에는 어떤 전공 사람들이 올까?

June 18, 2008 by hyeshik

얼마 전에 친구와 얘기하다가 “내 홈페이지는 아무래도 전산과만 오지 않을까~?”라는 말을
했었는데, 그 후에 과연 진짜로 전공 분포가 어떻게 되는지 궁금해졌습니다. -ㅇ-;

그래서 간단하게 조사해 볼 수 있는 방법을 궁리해 보다가, 대전의 모 학교 내부 접속자들은 IP만 가지고도
건물 위치를 알 수 있기 때문에 웹서버 접속 로그에서 학교 건물 이름으로 전공을 추측하는 게
가능해서 그걸로 소집단이나마 해봤습니다. ^^;

전공별 접속 통계

위 그래프에서는 요청횟수가 나타나 있는데, “내 이름 어때”가
최근 접속자에서 많은 부분을 차지하고 있기 때문에 별도로 분리해서 봤고, css, jpg등 부속적으로
따라오는 파일들은 제외하고 순수한 문서 요청만 셌습니다. 기간은 6월 1일부터 오늘까지 18일간이고요~
역시 전산과가 굉장히 많은 부분을 차지하는데, 의외로 전자과도 꽤 많습니다. 아무래도
내 이름 어때에서 넘어온 게 아닌가 추측이 되는데, 학부(주로 기숙사)에서는 내 이름 어때
요청만 굉장히 많은게 역시 학부생들 간의 유행 URL 전달이 대학원생들보다 활발한 것 같군요.

다음으론 요청수 말고 IP별 접속자 통계인데요. 접속자(unique visitor)에서 날짜별로 다른 날에
접속한 경우 별도 방문으로 처리한 방문횟수를 세 봤습니다. (내 이름 어때는 제외)

접속자 기준 통계

요청수는 전자과가 전산과보다 많았지만 접속자는 전산과가 더 많은데, 한 번 방문해서 눌러보는
횟수가 전자과가 더 많은 것 같군요. 아마도 로그를 대충 둘러보면 전산과는 RSS를 구독하는 경우가
많아서 접속이 거의 한 번에 1페이지씩인 경향이 다른 과보다 강한 것 같네요.

마지막으로 단골 손님 수를 전공별로 봤습니다.

단골 손님 통계

단골 손님의 기준은 18일 간 제가 글을 몇 개 안 썼기 때문에, 2번 이상 다른 날짜에 방문한 IP 수로
했습니다. 수가 적어서 신뢰도가 아주 높지는 않지만 역시 전산과가 가장 많고 전자과가 두 번째군요.
^^;

결론: 앞으로는 정상인의 블로그로 거듭나기 위해 노력하겠습니다. –;;;;

내 이름 어때? — 한국인의 이름 2탄!

May 27, 2008 by hyeshik

전에 올렸던 한국인의 이름 통계를 많은 분들이 관심있게 봐 주셔서,
본인 이름은 얼마나 많은가요, 얼마나 중성적인가요 같은 질문을 많이 받았습니다.
그래서 직접 확인하실 수 있게 통계에서 나온 여러 자료들을 모아서 한 페이지에
보이도록 서비스를 만들어 봤습니다.

내 이름 어때!

대부분은 이전 글에서 소개해 드렸던 내용이고요, 이번에 추가된 부분은 통계에서
자료가 충분하지 않을 때 자동으로 추정하는 것과 이름이나 글자가 시대가 바뀌면서
어떤 빈도 변화가 있는지 그래프로 나타내는 부분입니다.

자동 성별 추정 부분은 통계 수치없이도 단순하게 바로 이름에서 예측할 수 있게
하기 위해 피처는 그냥 이름을 자소로 쪼갰고, random forest를 사용했습니다.
(옵션은 리그레션, 500그루, mtry=3, R randomForest 패키지 사용)
10배 교차검정에서 피어슨 연관성이 0.97이 나와서 대략 결과는 좋긴 한데, 실제로 보다 보면
얼토당토않은 결과가 심심찮게 나옵니다;; 나중에 제대로 쓰려면 글자 단위 통계도 피처로
좀 추가해야할 것 같네요.

그리고, 역시 이름도 시대별 흐름이 있는데요. 예를 들어 미자, 혜자, 경자 같이 -자로
끝나는 이름은 60년대생까지 매우 흔한 여자 이름이었지만 70년대부터 급속히 사라지는데
그래프로 직접 이런 경향을 확인할 수 있도록 했습니다. 데이터셋이 그렇게 크지 않기 때문에
그냥 생데이터를 쓰지는 못하고, 9년 단위 슬라이딩 윈도우 평균으로 했기 때문에 갑자기
튀는 최고점 같은 것은 좀 무시되었습니다. (이 분석을 위해 “생년”만 추가로 데이터를 받아서 보충했습니다.)

자 그럼 본인 이름을 넣어보세요~ —-> 내 이름 어때! <—-

한국인의 이름에 대한 여러 수치 조사

May 17, 2008 by hyeshik

예전부터 꼭 해 보고 싶었던 것 중의 하나로 이름 데이터베이스를 구해서
흔한 이름, 여성적 이름, 중성적 이름 등등 같은 것 통계내기가 있었습니다.
요새 주변 사람들 중에 아기를 낳아서 새로 이름 짓는 사람도
많고, 아무래도 이름에서 나오는 느낌의 신비(?)에 접근하고 싶어서! -ㅇ-

그러다가 얼마 전에 이름 데이터베이스를 하나 구했는데, 정보활용 동의를 받은
사이트에 가입한 분들의 정보에서 이름, 성별 2가지만 추출한 것을 받았기 때문에
개인정보보호와 관련된 문제는 심각하지 않을 것 같습니다. 정확한 통계를 위해서는
성별외에도 생년이나 출생지같이 이름에 중대한 영향을 미치는 요소를 파악해서
편향성을 봐야하겠지만, 개인정보의 과다한 사용이 될까 해서 그냥 이름 성별 외에는
사용하지 않기로 결정했습니다. 그 결과 통계에 편향이 있는 것은 눈에 보이지만
편향을 피하기도 힘들고, 신뢰도가 어느 정도 되는지 정확히 통계적인 분석은
불가능했습니다. 따라서, 아래 분석은 그냥 재미로 읽어주시고 과학적인 통계로
이뤄진 것이 아님을 유의해 주세요. 🙂

사용한 데이터셋은 기본적인 오타나 잘못 입력된 것이 명확한 자료들, 깨진 자료들은
수작업으로 제거했고, 결국 80757명 (남자 52640명, 여자 28117명) 데이터로 분석했습니다.
여자 수가 훨씬 적게 샘플링됐기 때문에, 전체적으로 분석에서 비율에 맞춰서 보정하려고
노력했습니다.

데이터셋 내 성별 편향

성씨별 빈도

기본적으로 성씨별 빈도는 통계청에서도 발표하는 자료이기 때문에
우리 데이터셋이 성씨별로 편향되어 있지 않은지 보기 위해 똑같이 빈도 조사를 해 봤습니다.
그래서 순위를 보면 (한자는 음가기준으로 합산)

순위	2000년 통계청	데이터셋
1	김 (21.6%)	김 (21.6%)
2	이 (14.8%)	이 (14.8%)
3	박 (8.5%)	박 (8.4%)
4	정 (4.9%)	정 (4.8%)
5	최 (4.7%)	최 (4.7%)
6	조 (2.9%)	조 (2.9%)
7	강 (2.5%)	강 (2.4%)
8	윤 (2.1%)	장 (2.2%)
9	장 (2.1%)	임 (2.1%)
10	임 (2.0%)	윤 (2.1%)

아주 비슷하게 나온 것이, 장난으로 엉뚱한 이름으로 가입한 경우가 그렇게 많이 포함되어
있지 않고 편향도 그다지 뚜렷한 것은 아니라는 것을 확인할 수 있습니다.

이 다음 통계부터는 성과 이름을 분리해서 쓰기 때문에 2글자 성을 구별할 필요가 있었는데요.
특별히 좋은 방법이 없어서 그냥 일정 빈도 이상의 2글자 성씨로 시작하는 이름을 모두 2글자
성씨로 봤습니다. 즉 “서문교”같은 이름은 서씨인지 서문씨인지 구분할 수 없으므로 그냥 모두
서문씨인 것으로 처리했습니다. (이 조사에서 처리한 2글자 성씨: 남궁, 독고, 동방, 사공, 서문,
선우, 제갈, 황보)

가장 흔한 이름은 무엇일까!

자기 이름이 무척 흔한 분들은 보통 인터넷에 이름 쓸 때도 전혀 거리낌 없이 막 써도
익명이 보장될 정도인데요. 과연 흔한 이름은 어떤 게 있을까 무척 어릴 때 부터 궁금했는데
정량적으로 조사해 봤습니다! 물론 세대별 차이가 있긴 한데, 이번 데이터셋은 이름, 성별 외의
개인정보를 사용하지 않았기 때문에 세대별 편향성 같은 것은 고려하지 않았습니다.

1	정훈 (0.367%)	미경 (1.106%)
2	성호 (0.350%)	은주 (1.024%)
3	정호 (0.293%)	미영 (0.942%)
4	성진 (0.285%)	은영 (0.882%)
5	성훈 (0.285%)	경희 (0.850%)
6	영수 (0.281%)	은경 (0.839%)
7	상훈 (0.277%)	정희 (0.825%)
8	영호 (0.264%)	은정 (0.818%)
9	준호 (0.262%)	미숙 (0.804%)
10	진호 (0.260%)	현숙 (0.800%)

아는 정훈이 미경이가 보통 너댓명 씩은 되시니까 다들 1등은 놀라지 않으실 것 같네요 🙂

그 뒷 순위로는 남자는 재호- 영진 – 상현 – 성환 – 재영 – 영민 – 재훈 – 영준 – 영철 – 성수 등등이고, 여자는 은희 – 현주 – 미정 – 영미 – 현정 – 지영 – 영숙 – 정숙 – 선희 – 은숙 이렇게 나가는데, 둘의 비율 차이가 비교가 안 될 정도입니다. 즉, 여자 이름은 0.2% 이상 이름이 115개나 되는데 남자는 0.2% 이상이 27개 밖에 안 됩니다. 여자 이름이 훨씬 집중적으로 같은 이름이 많이 쓰이고, 남자 이름이 다양성이 높다고 볼 수 있겠습니다. (엔트로피 계산은 생략;;)

빈도별 이름 사용 인구

이름에 많이 쓰이는 글자는?

이름 전체 말고 각 글자별로 보는 방법도 있겠죠~ 그래서 성별로 어떤 글자가 위치별로 많이 쓰이는지
알아봤습니다.

순위	남자 앞	남자 뒤	여자 앞	여자 뒤
1	성 5.56%	호 5.42%	미 8.34%	희 10.04%
2	영 5.09%	수 4.67%	은 7.66%	숙 9.31%
3	상 4.30%	석 3.32%	정 6.12%	영 6.90%
4	재 4.19%	철 3.30%	영 5.64%	정 6.15%
5	종 4.12%	훈 3.13%	경 4.81%	경 5.47%
6	정 4.03%	현 3.12%	현 4.51%	미 5.29%
7	동 3.07%	진 2.92%	선 3.89%	자 4.81%
8	용 3.00%	영 2.58%	혜 3.83%	순 4.60%
9	승 2.79%	환 2.55%	지 3.72%	선 3.61%
10	경 2.68%	식 2.54%	수 2.77%	주 3.49%

역시 여자 이름이 흔히 쓰는 글자가 좀 더 집중되어 있는데, 보통 한국인의 평균 얼굴 만들듯이
대충 아무렇게나 상관관계 없이 뽑았을 때 가장 흔해 보이는 이름은 성호, 미희 가 되겠습니다.
성별 구분을 하지 않고 그냥 뽑으면 영희가 가장 대표적인 이름이 됩니다. 🙂

제 이름은 여자 앞글자에서 8등, 남자 뒷글자에서 10등 했군요;;;;

도무지 여자인지 남자인지 알 수 없는 이름은!

종종 중성적 매력이 있는 이름이 있죠. “정민”이라던지.. 양쪽에서 모두 많이 쓰여서 이름만 봐서는
설렐지 안 설렐지 결정도 못할 무서운 그런 이름! 흐흐. 그래서 양쪽에서 모두 많이 쓰이는 이름들을
찾아 봤습니다. 성별 편향은 여성내비율 / (남성내비율 + 여성내비율) 로 계산했으므로
0에 가까운 값이 나오면 남자 이름에서 압도적으로 많이 쓰이는 것이고 1에 가까우면 여성 편향이
있는 게 됩니다. 샘플이 적은 이름들은 비율이 잘못 계산될 수 있기 때문에 최소 0.05% 이상 있는
이름에 대해서만 조사했습니다.

Python
경진 0.492
태희 0.494
기정 0.495
정윤 0.498
희원 0.4996
진 0.531
정민 0.532
윤영 0.542
주현 0.547
세영 0.555

				
					
				1
2
3
4
5
6
7
8
9
10

						경진 0.492
태희 0.494
기정 0.495
정윤 0.498
희원 0.4996
진 0.531
정민 0.532
윤영 0.542
주현 0.547
세영 0.555

					

			

태희는 당연히 여자 아닌가 생각했더니, 거의 완벽한 중성적 이름이군요. -ㅁ-;

저도 저런 이름 있었으면 무척 좋았을텐데 아쉽네요. 제 이름은 남자반 여자반 갈라놓은
남녀공학 학교같은 분위기라서 –;;

그런데, 성별 편향을 조사하면서 잘 살펴보면 0.5 경계선 주변의 이름이 그다지 많지 않다는
것을 알 수 있었습니다. 그래서 편향값의 분포를 히스토그램으로 그려 봤는데 진짜 확실하게
드러납니다.

이름별 성별 편향 분포

여성쪽이 압도적으로 확 올라가 버리는 것은 이름이 아무래도 집중되는 경향도 있긴 하지만,
여자가 남자이름을 쓰는 경우가 남자가 여자이름을 쓰는 경우에 비해서 훨씬 많은 것이 주요
원인인 것 같군요.

남자/여자 이름에 각각 많은 글자?

전체적인 빈도 뿐만 아니라, 어떤 특정 글자가 전체적인 느낌을 압도해서 남자로 만들어버린다거나
여자로 만들어버리는 글자들이 제법 있는데요. 예를 들어서 “철”이나 뒷 글자가 “국”인 경우에는
웬만한 글자가지고는 여자이름을 만들기가 어렵고, 앞 글자가 “미”나 뒷 글자가 “숙”인 경우에는
남자 이름을 만들기가 쉽지가 않습니다. 그래서 한 번 글자별 성별 편향을 조사해 봤습니다.
편향성은 마찬가지로 아까와 같이 0과 가까우면 남자, 1과 가까우면 여자입니다.

순위	남자 앞글자	남자 뒷글자	여자 앞글자	여자뒷글자
1	왕 (0.0)	황 (0.0)	미 (0.9954)	애 (1.0)
2	웅 (0.0)	율 (0.0)	애 (0.9908)	분 (1.0)
3	범 (0.0184)	률 (0.0)	난 (0.9905)	녀 (1.0)
4	철 (0.0268)	술 (0.0)	혜 (0.9892)	름 (1.0)
5	대 (0.0341)	걸 (0.0)	숙 (0.9840)	자 (0.9996)
6	익 (0.0352)	탁 (0.0)	소 (0.9824)	란 (0.9987)
7	중 (0.0538)	백 (0.0)	분 (0.9771)	미 (0.9986)
8	낙 (0.0612)	돈 (0.0)	아 (0.9662)	혜 (0.9983)
9	택 (0.0630)	룡 (0.0)	매 (0.9630)	임 (0.9981)
10	권 (0.0738)	건 (0.0)	말 (0.9571)	라 (0.9969)
상위 25 평균	0.0727	0.0069	0.9337	0.9848

역시 뭔가 성별을 치명적으로 결정해버릴 수 있는 글자들이 많이 보이는 것 같군요. 🙂
그런데, 뒷 글자가 앞 글자에 비해서 편향이 훨씬 심한 것을 볼 수 있는데, 그래서
남녀 데이터를 모두 합쳐서 앞/뒤의 각각의 표준편차를 구해봤는데 각각 0.31, 0.38로
차이가 제법 나는군요. 앞 글자보다는 뒷 글자가 전체 성별 느낌을 결정하는데 중요한
역할을 하는게 아닌가 싶습니다.

앞 뒤 위치에 따라서 성별이 다른 글자

어떤 글자들은 앞에 오면 남자이름에 주로 쓰이지만, 뒤에 갈 때는 여자이름에 쓰이는 경우가
있는데요, 이런 게 어떤게 있는지 한 번 찾아봤습니다. (편향은 앞의 설명과 마찬가지로 계산했습니다.)

글자	앞글자 편향	뒷글자 편향
보	0.747 (여)	0.084 (남)
수	0.725 (여)	0.093 (남)
복	0.777 (여)	0.239 (남)
서	0.625 (여)	0.087 (남)
행	0.604 (여)	0.128 (남)

예를 들어, “보”가 앞에 오면 여자 이름인데, 뒤에 오면 남자인 경향이 훨씬 높다는 것이죠.
그런데 신기하게도 편향이 차이나는 것 상위 13개가 모두 앞 글자에서 여자/뒷 글자에서
남자이고, 처음으로 뒷 글자에서 더욱 여성스러워 지는 것은 “이” (0.57 -> 0.92),
“자” (0.65 -> 0.99) 입니다.

성별을 진짜로 확! 바꿔버리는 글자

앞에서는 그냥 전체적으로 한 성별에서 많이 나오는 글자들을 조사했는데요. 이번에는
원래는 여성성이 있는 글자에 다른 글자가 붙어서 남성 이름으로 바꿔버린다던지 완전히
반대로 바꿔버리는 글자들이 있는지 조사해 봤습니다.

순위	남성 앞글자 편향조절	여성 앞글자 편향조절	남성 뒷글자 편향조절	여성 뒷글자 편향조절
1	철 (0.703)	슬 (-0.672)	호 (0.549)	아 (-0.572)
2	대 (0.576)	미 (-0.642)	석 (0.522)	이 (-0.519)
3	요 (0.546)	예 (-0.491)	규 (0.494)	미 (-0.486)
4	충 (0.490)	혜 (-0.441)	상 (0.480)	실 (-0.485)
5	치 (0.486)	소 (-0.433)	준 (0.468)	숙 (-0.484)
6	창 (0.468)	은 (-0.433)	용 (0.460)	순 (-0.435)
7	형 (0.455)	금 (-0.342)	식 (0.451)	림 (-0.428)
8	동 (0.448)	옥 (-0.329)	찬 (0.442)	경 (-0.422)
9	용 (0.445)	여 (-0.315)	필 (0.437)	은 (-0.421)
10	병 (0.444)	지 (-0.311)	한 (0.436)	례 (-0.419)

므흐흐. 역시 단순 빈도 조사를 한 앞 것보다 좀 더 결정적인 글자들이 강조되었는데요.
제 이름은 앞 글자에서 -0.441, 뒷 글자가 0.451 해서 아슬아슬하게 남자 이름이 되었군요!
-O-;

한 위치에만 압도적으로 많이 쓰이는 글자

각 성별 안에서도 한 자리에만 많이 나오는 글자가 있는데, 뭐가 있나 조사해 봤습니다.

순위	남자 앞글자	남자 뒷글자	여자 앞글자	여자 뒷글자
1	자 (52/1)	식 (1/1339)	세 (135/1)	실 (1/160)
2	병 (1394/31)	섭 (3/798)	소 (360/4)	심 (2/162)
3	지 (498/13)	곤 (1/240)	계 (59/1)	례 (3/167)
4	여 (36/1)	엽 (1/152)	보 (160/3)	랑 (1/29)
5	시 (108/3)	열 (7/555)	유 (314/7)	자 (52/1353)

-식, -실, -례 는 자주 보지만 식-, 실-, 례-는 좀처럼 보기 힘든 것 같은 게 위의 표에서
표현되어 있는데, 전체를 조사해 보면 반 정도 글자는 앞 뒷 글자 구분이 있고,
반 정도는 앞 뒤에서 모두 사용되는군요.

한글 자모별 편향

한글은 분해해서 자모의 느낌도 볼 수 있으니까, 각 자모별 조사도 해 봤습니다~
전체 자료는 표시하기에 너무 많아서 몇 가지 주요 자모만..

	ㄱ	ㄷ	ㅁ	ㅅ	ㅇ	ㅈ	ㅊ	ㅌ	ㅎ
남자 초성 (앞)	11.0	6.3	4.0	18.2	17.1	19.8	5.0	2.6	10.1
남자 초성 (뒤)	12.4	2.3	4.4	18.4	18.5	9.6	5.1	2.0	21.2
여자 초성 (앞)	8.4	0.9	13.4	17.2	24.8	15.6	1.3	0.4	14.5
여자 초성 (뒤)	6.4	0.5	6.3	20.5	22.8	18.9	0.2	0.0	17.5

	ㅏ	ㅐ	ㅓ	ㅕ	ㅗ	ㅘ	ㅛ	ㅜ	ㅡ	ㅢ	ㅣ
남자 중성 (앞)	11.1	9.3	14.8	16.8	11.1	2.8	3.8	8.2	4.6	1.3	11.0
남자 중성 (뒤)	5.5	4.7	15.1	10.6	11.3	4.3	2.6	20.7	2.6	1.7	13.9
여자 중성 (앞)	4.5	3.0	13.2	20.0	5.8	0.9	1.5	9.3	10.1	2.1	19.7
여자 중성 (뒤)	11.1	2.6	10.9	18.2	4.0	2.9	0.3	19.2	2.1	10.2	14.7

	없음	ㄱ	ㄴ	ㄹ	ㅁ	ㅂ	ㅇ	ㅍ
남자 종성 (앞)	23.9	3.6	19.2	2.4	1.5	0.2	49.2	0.0
남자 종성 (뒤)	28.9	13.0	31.4	8.1	2.1	2.1	14.4	0.0
여자 종성 (앞)	34.8	3.3	31.3	1.0	2.0	0.1	27.6	0.0
여자 종성 (뒤)	38.1	13.6	23.0	1.0	3.3	0.2	20.7	0.0

가만 보고 있으면, 어감하고 직결되는 부분이 몇 군데가 확 눈에 띄는데요, 여자 이름에
받침이 없는 경우가 훨씬 많고, 뒷글자에 훨씬 많이 나오는 종성 같은 것들이 뚜렷하군요.
(분석할 것은 많지만 지면 상 생략 -ㅇ-) 재미있는 것은 남자 중 거의 절반이
이름 앞글자가 ㅇ 받침이네요. +_+

성과 연결된 이름

종종 이름 중에 한가지 성씨하고 유독 잘 어울리는 이름이 있습니다.
예를 들어 한아름, 조아라, 정다운 이런 이름은 다른 성보다 한 성에 보통 집중되어 있죠.
그래서 그런 게 어떤게 있나 조사해 봤습니다. (괄호 안의 수치는 성의 빈도에 대한
해당 이름 내의 성의 빈도차)

여자이름
정다운 (21배), 조아라 (17.9배), 한송희 (14배), 한아름 (13.4배), 한송이 (11.5배),
고은선 (9.4배), 안소희 (8.4배), 조한나 (8.3배)

남자이름
남궁원 (268배), 백운봉 (125배), 심현보 (107배), 구정모 (79배), 허근 (69.7배), 홍준표 (59.4배),
홍광표 (55.4배), 권혁성 (53배), 홍원표 (52배), 권오성 (47.7배), 권대혁 (45.4배), 허욱 (39.6배)

여자이름은 대부분 연결된 글자들이 뜻하는 다른 단어들이 영향을 많이 주었는데,
남자이름은 돌림자와 관련된 것이 매우 많습니다. 즉, 홍씨와 권씨가 압도적으로 상위 빈도를
모두 차지했는데, 그 이유를 연구실 동료인 홍모군에게 문의한 결과, 홍씨가 넘어온 것이 조선대라서
얼마 되지 않다보니 항렬자가 상당히 같은 연대에서 많이 동기화되어 있다고 하는군요.

그래서 그냥 위치별로도 따로 조사를 해 봤는데, 따로 한 것과 큰 차이는 없어서 이름을 분해한 글자를 기준으로 성과의 상관관계를 봤습니다. (성-이름글자 순서)

여자이름
여-운 (49.4배), 권-혁 (36.1배), 민-홍 (17배), 백-설 (13.2배), 한-름 (13.1배), 남-우 (11.9배)

남자이름
구-본 (246.9배), 연-흠 (221배), 구-자 (141.5배), 인-치 (55.8배), 연-제 (42.1배), 구-회 (35배),
홍-표 (32.4배), 윤-여 (31.5배), 추-엽 (30.5배), 성-낙 (26.9배), 심-보 (20.8배), 곽-노 (19.9배),
권-오 (18.3배), 성-백 (17.9배), 허-행 (15배), 구-모 (14.7배), 임-채 (12배), 원-유 (11.9배)

주로 대부분 돌림자와 관련된 것을 알 수 있는데, 그동안 이상하게 한 성씨에서 한 글자를 많이
봤다 싶은 것들이 골고루 나와있네요. 🙂

머릿글자가 겹치는 이름

이름을 대충 숨겨서 쓰려고 ㅇㅁㅂ 같은 방법을 많이 쓰는데, 이렇게 쓰면 과연 겹치는 사람이
얼마나 될지 궁금해서 한 번 찾아 봤습니다. 머릿글자가 ㅇㅁㅂ인 사람은 8만명 중 6명으로
0.000075 확률이라서 일부러 누구 찍어서 말하는 게 아니라고 말하기 매우 힘든 수준이라고
볼 수 있겠죠; 그럼 과연 가장 많이 겹치는, 머릿글자만 따도 이미 익명성이 보장되는 것은
어떤 게 있을까요!

머릿글자	비율	예시
ㅇㅈㅎ	1.50%	안정환 안재현 오지호 유정현 엄지혜 임지훈
ㅇㅈㅇ	1.34%	안재욱 이재오 양진영 오종원 유지연 윤재열
ㄱㅈㅎ	1.30%	강종훈 고정환 구자현 권재혁 김정현 김진형
ㅇㅅㅇ	1.26%	안상우 양소영 유수연 윤선영 이승엽 임순옥
ㄱㅇㅅ	1.20%	강은숙 공영섭 곽영수 금윤섭 김연실 김은수

위 이름 쓰시는 분들은 좋겠어요~ 머릿글자가 익명이라.. ^^;

마지막으로..

여러가지 이름에 대한 통계를 해 봤는데, 그동안 피상적으로 느꼈던 것을 정량적으로
확인해 볼 수 있는 기회가 됐습니다. 이름과 성별 밖에 없는 자료이기는 하지만,
그래도 혹시 있을 수 있는 오용을 막기 위해 위에서 공개된 자료 외에는 추가로 공개하지는
않을 예정입니다. 다음에는 여러 가지 기계학습 기법들을 이용한 이름 -> 성별 판단 루틴들을
만들어서 시험해 보는 글을 언젠가는 한 번 써 보려고 아이디어를 정리하고 있습니다. ^^;

단백질 접기 게임 fold.it의 배경 이야기

May 16, 2008 by hyeshik

요즘 인터넷에서 단백질을 접는 게임 fold.it이 아주 인기입니다.
단백질 접기(protein folding)는 구조생물정보학의 가장 큰 문제이기도 하지만, 제가 있는 연구실의
주요 주제이기도 해서, 단백질 접기에 관한 몇 가지 얘기를 해 볼까 합니다. 🙂

단백질 구조가 뭔가?

단백질은 생물을 구성하는 주요 분자구조 중의 하나인데, 20가지 아미노산이 일렬로
실처럼 쭉 연결되는 것이 기본 구조입니다. (현재 22번째 자연계 아미노산까지 발견되긴
했지만 사람은 20개만 사용하고 있습니다.) 20가지면 컴쟁이가 생각하기에 바로 생각할
수 있는게 알파벳으로 커버하고 남는다 그거죠. 그래서 실제로 아미노산은 알파벳으로
표시하고 있는데 각각의 이름을 따서 BJOUXZ 여섯개를 빼고 나머지로 표현하는 문자열로
많이 씁니다.

그런데, 각 아미노산은 성질이 있어서 자기들끼리 모이려고 하는 것도 있고, 서로 떨어지려고
하는 것도 있고 크기가 커서 부딪히지 않으려고 하는 것도 있고, 기타 등등 여러 성질이 있어서
안정적인 몇 가지 기본적인 구조(나선형, 판형 등..)을 지역적으로 이루는데, 이걸 2차구조라고 부릅니다.

역시 인간관계도 상당히 복잡하듯, 2차구조를 이룬 다음에도 자기들끼리 꼬이면 그나마 남은
관계까지도 복잡하게 얽여서 굉장히 안정적인 구조를 만들 수 있는데요, 이렇게 모인 것을
3차구조라고 부릅니다. 그리고 여러 단백질 가닥이 모여서 큰 단백질을 만들면 4차구조라고
부릅니다.

구조는 뭐에 쓰는가?

단백질은 생화학적 작용의 가장 기본적이고 유용한 분자이기 때문에, 생화학 작용에서
단백질을 빼면 거의 남는게 없습니다. 물론 핵산이나 탄수화물 등도 매우 중요하긴 하지만,
생화학 회로를 그린다 하면 거의 대부분 단백질이 주인공이죠. 그런데, 단백질이 상대를
만나서 반응을 하는 기준이 대부분 단백질에 있는 구멍의 특정 모양이나 아미노산들이 배치된
패턴과 상대의 특징들 같이 단백질과 생분자간의 모든 관계가 구조를 빼면 설명하기 힘듭니다.

그래서 단백질의 구조를 밝히는 것이 분자생물학, 세포생물학의 기본 원리를 밝히는 데 뿐만
아니라, 새로운 단백질을 디자인하고 약을 만드는 데 매우 중요한 도구입니다. 90년대 말의
히트작 항암제인 글리벡도 구조를 연구해서 기막히게 구멍을 메우는 약이죠.

구조를 그냥 보면 안 되나?

웬만하면 구조는 그냥 현미경으로 보면 가장 좋겠죠. 그런데, 단백질은 빛의 파장보다
짧은 구조를 하고 있기 때문에, 가시광선으로는 볼 수 없어서 현미경으로 볼 수 없고,
전자현미경이나 다른 원리를 쓰는 현미경들도 (적어도 아직은) 단백질 구조까지 보기에는
한참 힘듭니다. 그래서 사용하는 것이 일반인들에게 MRI로 유명한 NMR과
X레이 구조결정 두 가지 방법이 쓰이는데요, 보통 X레이가 여러 이유로 더 많이 쓰입니다.

X레이로 그냥 다 찍으면 보이면 좋은데, 이게 결정을 만들어야하다보니, 같은 분자를 다량
정제하는 것도 힘들고 결정으로 만들기도 힘든 고분자를 결정으로 만드는 것도 상당히
경우에 따라 다른 기술이 필요합니다. 그래서, 대량으로 찍고 싶다고 다 나온다기 보다는
관심이 많은 단백질들의 구조에 집중되어 있는 편입니다. 또한, 단백질 구조가 항상 같은게
아니라 꿈틀꿈틀 움직이기도 하고 아예 훽훽 움직이기도 하는데 그 움직임이 중요한 경우도 있어서 원하는 걸 다 얻기도 힘들고,
막 사이에 끼여있는 단백질 같은 경우엔
아예 원래 구조로 결정으로 만드는게 너무너무너무 힘들어서 지금까지 찍힌 것이
손으로 꼽을 정도가 되기도 합니다.

계산적 구조 예측

그래서 하는 것이 컴퓨터를 이용한 구조 예측입니다. 기본적으로 원자의 움직임은 물리역학적
특성을 따르기 때문에, 움직임이나 안정적 구조를 컴퓨터로 당연히 이론적으로 예측할 수
있습니다. 대표적으로 사용되는 방법은 분자동역학 시뮬레이션이나 몬테카를로 같은 것들을
쓰는데, 전자의 경우에는 계산량이 엄청나게 많아서 수십나노초(ns)가 넘으면
예측이 거의 불가능해집니다. 그리고 몬테카를로법이나 다른 변종들도
한계가 있습니다. (시작점을 잡기 위한 방법이나 지속적인 움직임을 보기 위한 다른 방법을 도입할 필요가 있죠.)

그 결과 결국 구조 예측의 주축은, 유사성 모델링이 되었는데, 기존의 비슷한 단백질의 구조를 가져다가
여기 저기 비슷한 부분을 잘라 붙인 다음에, 그걸 기존 방법으로 에너지 안정화 시뮬레이션을
좀 거치는 방법입니다. 기존 단백질 구조를 이용해서 완전 바닥이 아니라 벌써 한참 진행된
것을 가지고 하기 때문에 아주 효율적이고 비교적 정확한 결과를 얻을 수 있지만, 기존의
비슷한 단백질이 없으면 구조를 예측하지 못하는 한계가 있습니다. 그렇지만, 데이터베이스가
점점 커져서, 최근에는 단백질 예측에서 유사성을 이용하지 않는 것은 상상할 수 없을 정도가
되었고 데이터베이스 크기가 예측의 품질과 매우 밀접한 관계를 가지게 되었습니다.

구조 예측 대회 CASP!

이렇게 단백질 구조 예측이란게 아주 정의가 잘 된 계산 문제가 되다보니, 그 다음에 당연히
나올 수 있는 것은 초밥만들기 대회처럼 세계대회가 생기는 것이겠죠. 그 중 가장 큰 것은
단연 CASP입니다. 1994년부터 격년으로 하고 있는데
올해 대회는 얼마 전에 참가접수가 끝나고, 지금 한참 대회가 진행 중입니다.

요즘 유행하는 fold.it도 이 구조 예측 대회를 타겟으로 나온 것인데, fold.it을 만든
워싱턴대학(시애틀) 생화학과의 David Baker 연구실은 한동안 CASP을 휩쓸었던
먼치킨 그룹입니다. 여기는 애플과 비슷한 점이 많은데, 남들이 다 뻔히 될 것 같다고 생각하고는
있지만 실제로는 여러 이유로 안 해보는 것들을 아주 기발하고 멋진 해결책을 들고서
짠! 하고 만들어서 그걸로 굉장한 결과물을 만들어냅니다. 유사성 모델링에서 에너지 계산방법도
그렇고, 구조 데이터베이스 탐색법, 분산계산(Rosetta@Home)등 여러 가지가 그런데요,
이번에 fold.it도 종종 컨퍼런스에서 구조는 역시 사람이 보고 끼워맞추는게 최고다 그런
농담이 자주 나오는 걸 진짜로 게임으로 만들어서 수만명이 달려들게 만들어버렸습니다.

-ㅇ-; 그 결과 지금 fold.it에 슬슬 CASP문제가 나오기 시작했고, 올해 CASP 문제를
게임에서 수만명 플레이어가 여러가지를 아직 알고리즘으로 나오지도 않은 여러 직관을
써서 풀어놓으면 거기서 나온 구조로 CASP 답안으로 제출한다고 합니다. 물론 컴퓨터로
찾는 것 보다 완전 샅샅히 뒤지는 것은 안 되겠지만, 그래도 사람의 직관이 수만명이
모이면 그 힘이 어떻게 될 지는 상상도 안 가네요. 아마도 상당히 상위권에 들어갈
수 있지 않을까 싶습니다.

실제로 게임 안에 나오는 구조는 진짜 단백질 구조인가?

많은 분들이 물어보셔서 덧붙이자면, 게임 안에서 쓰이는 용어는 모두 실제
생물학에서 사용하는 용어이고, 구조에 큰 영향을 주는 요소들은 상당 부분이
게임 안에서 자세히 표현되어 있습니다.

앞으로 이런 게임이 어떤 것이?

직관으로 풀면 훨씬 간단한 NP-hard 문제들을 재미있는 퍼즐로만 만들 수 있다면
이렇게 잘 표현한 게임으로 만드는게 수천개 CPU 동원한 클러스터보다 효율적일 수도
있을 것 같습니다. 단백질 구조 외에도 계통 분류 최적화나 RNA 구조,
단백질-단백질/라이간드 도킹 예측/디자인, 단백질 유도 진화 등 재미있는 게
많이 있을 것 같은데 게임으로 과연 만들 수 있을지는 모르겠네요. ㅎㅎ;

국회 의안공동발의 경향

March 15, 2008 by hyeshik

Science에 3월 7일자로 COMPUTER SCIENCE: Science 2.0라는 Perspective가 올라왔습니다. 좀처럼 안 올라오는 CS관련 글이 최근에 몇 개가 연달아 올라왔는데, 그래서 보고 있다가 중간에 붙어있는 그림 1 (정치 네트워크)을 보고 우리나라도 이런 것 하나 그려보면 정말 재미있겠다 하고 완전 꽂혀서 최근에 그래프 툴도 하나 익혀야겠다 생각이 들어서 이걸로 주말을 날렸군요 -ㅇ-;

구체적으로 저 그림을 방법에 대해서는 나와있지 않아서 그냥 대충 그림 설명의 어감을 보고 따라해 봤습니다. 우선 국회법률정보시스템에서 17대 국회 중에 통과된 개정안을 모두 긁어왔는데요, 대략 2300건 정도 되는군요.
현재 국회의원직을 유지하는지 여부는 상관 없이 의안에 한 번이라도 개입했던 의원들 중 활동이 충분한 의원은 모두 대상으로 넣었습니다.
처리된 의안 중 정부가 제안한 것과 상임위원장이 올린 법안들은 누가 올렸는지 뚜렷하게 적혀있지 않기 때문에, “XXX의원외 ~명 발의”로 되어있는 것들을 추렸는데, 총 780건 정도 되는 것으로 결국 분석했습니다. 여기서 의안을 같이 발의한 경우에 1점씩 추가해서 각 의원간의 NxN 행렬을 계산했습니다.

아무래도 이런 방식으로 의안을 많이 올리는 의원도 있고 (최고는 220건), 중간에 사퇴하거나 보궐선거로 들어오거나 장관직 수행 등으로 참석 횟수가 적은 의원들이 있기 때문에 (최저는 대략 1~2회 내외), 각 참여의 중요도를 반영하기 위해 표준 점수(Z-score)로 계산하고, 양쪽 의원간의 상호 점수 중에 낮은 것으로 양쪽 모두에게 적용했습니다. 그리고, 이 그래프를 네트워크 분석 프로그램 중 가장 널리 쓰이는 Pajek에 넣어 분석했습니다. (사실은 NetworkX를 쓰고 싶었지만, 엣지가 너무 많아서 뻗어버리더군요 –;)

요렇게 나옵니다. 대략 사이언스에 나온 그림과 비슷합니다. 하하하 (괜히 뿌듯;;;;)
사실은 자격불만족이나 기타 다른 사유로 활동이 적은 의원들을 제거해서 바깥쪽으로 멀리 떨어져나간 점은 좀 쳐냈습니다.
(구체적으로 자세히 보시려면 여기 –> Kamada-Kawai 레이아웃, Fruchterman Reingold 레이아웃)

구체적으로 숫자들로 데이터를 보면 상당히 재미있는 게 많이 있었는데, 그래프로 그려서는 어떻게 재미있는 걸 표현하기가 좀 힘드네요. -ㅇ-;; 제가 관심이 많았던 전/현 민주노동당 의원들 주변 자료만 좀 살펴보면, 작은 당들이 주로 자기들끼리 힘 모아서 같이 발의하는 경향이 훨씬 뚜렷하고, 표준 점수로 하다보니 다른 당 의원들과의 점수가 엄청 떨어지는군요. 전/현 민주노동당 의원들에서 밖으로 나가는 고리는 주로 강기갑, 최영순 의원이고, 재미있게도 민주당 비례대표 1번이었던 손봉숙 의원이 드물게도 대부분의 전/현 민주노동당 의원들에게 연결되어 있습니다.

혹시 나중에 또 새로운 툴 배울 일이 생기면 더 분석해서 올려 보겠습니다. =3=33

더 자세한 데이터에 관심있는 분들을 위해서 표준점수 데이터를 공개합니다.
(사실 위 그래프 말고도 하나 더 그리긴 했는데, 설명을 쓰고보니 글이 너무 길어져 재미없어져서 설명은 생략합니다;;)

“기계전자공학부”와 “바이오및뇌공학과”의 정체

February 26, 2008 by hyeshik

저는 학부를 “기계전자공학부”에 다니고, 지금은 “바이오및뇌공학과”에 다니고 있는데요,
둘 다 전통적인 학과 이름이 아니라 마케팅용 과 이름이다보니까
본의아니게 “기계공학 전공하셨는데 컴퓨터는 어떻게 배우셨어요?” 질문도 엄청 자주 받는데다,
저희 가족들도 제가 무슨 과인지 아직도 모르는 뭐 그런 일이 있어서,
구체적으로 뭐 하는 과인지 약간 소개를 해 봅니다.

“기계전자공학부”는 교육부에서 한창 학부제 정책을 펼 때 학교에서
지원 받으려고 급조한 학부인데요, (마지막 학생운동이 있었던 바로 그) 1996년에 기계공학, 기계설계, 전기공학, 전자공학, 전파공학, 컴퓨터과학, 산업시스템공학 이렇게 7개가 합쳐서 기계공학, 전기전자공학, 정보산업공학 3개 전공으로
재편성한 광역학부입니다. 저는 정보산업공학(컴과+산시)으로 졸업했는데,
컴과과 산공을 약간씩 들어서 컴과라고 하기도 좀 그렇고 정보라고 하기도 좀 그렇고.. 애매하지만.. 기계과는 아닙니다. -ㅇ-;

이후에 2000년에 모집계열이 공대 전체로 통합되면서 3개 전공이
모두 별도 학부로 분리되면서 정보산업전공이 컴퓨터산업공학전공으로 바뀌고, 2004년에는 다시 2개로 원래대로 분리돼서 컴퓨터과학과와 정보산업공학과(원래는 산시)가 됐다가, 2007년에는 다시 공대의 비인기과를 모아서 공학부로 통합했다고 합니다. -ㅇ-;

“바이오및뇌공학과”는 사재기부와 정부의 매칭펀드로
마찬가지로 약간 독창적인(?) 방법으로 생겨난 학과인데,
처음에 이름은 “바이오시스템학과”였습니다. 학교 내에서 학부생을
모집하는 과 중에 유일하게 자연과학대나 공과대에 속하지
않은 과이기도 한데.. 좀 이상하죠; 원래 설립목적은
BT+IT였지만, 실제로는 BT+IT라고 보통 부르는 분야가 차지하는
비중은 그렇게 많지 않고, 공학을 도구로 해서 생물을 주제로
연구하는 여러 분야에 골고루 나뉘어 있습니다. 크게 나노나 MEMS, 뇌과학/신경공학, 계산생물학, 이미징/포토닉스 같은 것을
다루는 연구실들이 있습니다.

그러다가 2006년 말에 “바이오시스템”이 다른 학교에서
주로 농기계 관련 학과에서 많이 쓰인다는 얘기 때문에,
유학준비생들을 고려해서 미국에서 보통 많이 쓰는 이름인 “바이오메디컬공학과”로 개칭합니다.
그런데 관련된 타과의 극렬한 반대로 결국 학칙만 개정하고
공표는 못 하고 있다가, 결국 2007년에 정치적 타협으로
부르기도 이상하고 쓰기도 이상한 “바이오및뇌공학과”가 됩니다.
아직도 학교 안 다른 데서 과 이름 얘기하면 이상한 사람 취급합니다.
-O-; 세글자 약어는 공식적으로는 “바공과”지만, 실제로는 과 안에서도 누구나 “바뇌과”로 부르고.. ^.^

이상한 이름 과만 돌아다니는게, 뭔가 알게모르게 유행을 좇은 결과는 아닌지 깊이 반성해 봅니다. -.-;

미수다 첫째 줄은 의미가 있는가?

February 17, 2008 by hyeshik

[알림] 이 글의 전개에 사용된 자료의 일부는 주관적 판단에서 도출된 것이므로, 전체적인
논리와 결론, 설명 등이 과학적으로 부정확할 수 있으니, 너무 진지하게 받아들이거나 정확한
결론으로 오인하지는 마시길 부탁드립니다.

KBS에서 오랫동안 방송하고 있는 미녀들의 수다를
작년부터 심심할 때 재미있게 보고 있었습니다. 여기서는 외국인 여성들이 4×4격자로 한 회에 16명씩
출연하는데.. (벌써 숫자부터가 심상치가 않습니다;; 2비트씩 총 4비트 어드레싱!)
항상 같은 사람이 나오는 게 아니라 일정 출연자 풀을 두고 약간씩 바뀌다보니 제작진이 때에 따라
자리를 배치합니다. 시청자들도 물론 어느 정도 패턴을 파악했겠지만, 작년 11월에 방영된
50회에서 출연자인 “따루”가 “뒷 줄보세요. 노처녀들 맨날 다 여기 앉았잖아요. 앞에 어리고 이쁜
애들 다 앉고~” 라고 얘기하면서 물위로 “꿍꿍이”가 떠올랐는데요. 그래서 그 때 과연 꿍꿍이가
어느 정도 수준인가 구체적으로 분석해보면 재미있을 것 같아서 이 분석을 하게 됐습니다. -ㅇ-;

우선 자리 배치를 어떻게든 데이터로 갖고 있어야하는데, 검색해 봐도 자리 배치가 데이터베이스화
되어 있는 곳은 따로 없어서 직접 방송 전 회를 다 확인해서
데이터베이스로 만들었습니다. ;;
(혹시 더 분석해 보실 분들을 위해 공개합니다;;;;)
1회에서 63회까지 중에 13회와 23회를 뺀 총 61회분인데, 각각 설날특집, 개편기념 특집이라
자리 배치가 4×4가 아니다보니 이질적인 데이터라서 뺐습니다.

그래서 확인해 볼 가설들은 다음 것으로 정했습니다.

“어리고 이쁜 애들”이 정말로 집중적으로 앞에 앉는 경향이 있는가?
제작진이 주장하는 해당 회차의 주제에서 재미있게 말할 수 있는가가 정말로 자리에 반영되는가?
어느 줄이 진짜로 좋은 줄인가?
세로줄 말고 가로줄은 영향이 없는가? 그리고, 세로줄과 가로줄의 상관관계가 있는가?
52회 이후 따루가 아랫줄로 내려왔을 때 다른 사람들도 영향을 받았는가?

먼저 대부분 가설들이 “어리고 이쁜 애들”과 관련되어 있기 때문에, 어떻게든 정량적 통계를 적용하려면
그 정도를 정량화를 해야하는데, 사람마다 취향이 다르고 정량화를 하는 것도 여러 모로 문제가 많을
수 있기 때문에, 직접적으로 “어리고 이쁜” 정도를 정량화 하지는 않고, 시청자가 선호하는 정도에서
언어와 관련된 부분을 따로 떼서 나머지 부분을 “선호도”라는 주관적 기준으로 적용했습니다.
즉, 제가 마음대로 숫자를 줬다는 얘기죠 –;; 이 데이터는 인격권과 여러 가지 문제가 다분히 있을
수 있기 때문에, 통계에서도 직접적으로 노출되는 부분에는 사용하지 않고 데이터도 공개하지
않았습니다. 그리고 나머지 “해당 주제를 재미있게 말할 수 있는” 정도를 또한 제가 마음대로 정량화
해서 데이터를 만들어서 이 두 가지와 자리의 상관관계를 먼저 조사했습니다.

뭔가 의도에 맞춰 자리가 배치되었는가?

이 그래프는 카메라에서 보는 위치와 출연자의 선호도 평균값을 나타냅니다. 원 안의 색깔은
언어외선호가 낮을 수록 붉은색, 클 수록 밝은 초록색 (평균은 검은색)으로 나타납니다.
그리고 원의 크기는 해당 위치 출연자 데이터의 표준편차입니다. 대충 경향을 뚜렷히 눈으로
볼 수 있듯이, MC와 가장 가까운 왼쪽 맨 아랫줄 자리가 역시 가장 선호가 높은 자리로 볼 수 있고,
위로 갈 수록 낮아지는게 예측과 일치합니다. 그런데, 하나 예상과 다르게 나타난 것은 경향이
줄마다 있는게 아니라 약간 왼쪽으로 경사가 30도 정도 있습니다!

그 경향을 조사하기 위해서 몇 도를 회전하고 선형회귀를 했을 때 가장 목표값(선호도)과 상관관계가
높은지 보면, 25.8도를 회전했을 때 가장 높게 나타나는데 그 r값이 -0.974가 나옵니다.
물론 주관이 개입되었으므로 자주 보는 사람이 선호가 높은 등의 여러 문제가 있을 수도 있지만,
0.97이라면 그런대로 높은 상관관계라고 볼 수 있겠습니다. 그런데, 왜 25.8도를 회전해야 결과가
나왔는지를 조사해보자면, 패널 자리의 왼쪽은 MC와 방청객이 있기 때문에 카메라가 주로 오른쪽에서
접근하게 되는데, 대략 패널에 접근하는 카메라의 각도가 평균이 그 정도 되는 게 영향을 주지 않았나
생각됩니다.

그런데, 분산은 맨 아랫줄 2번째 자리와 2번째 줄 맨 오른쪽 자리가 분산이 상당히 적게 나왔고 다른 부분은
비슷한데요, 이 자리 둘에 대해서는 은연 중에라도 진짜 일관된 기준으로 배치한 것 같습니다.

그래서, 왼쪽 맨 아랫줄을 기준으로 잡아서 회전한 가로축에서의 거리를 “중심거리”로 정의해서
이를 자리가 제작진이 얼마나 별도의 기준에 따라서 배치하는가에 대해 아래에서 좀 더 조사를 했습니다.

반면에, 각 패널이 얼마나 한국어에 능숙한지를 가지고 관계를 보면 윗 그래프와 같이 전혀 다른 결과가
나옵니다. 언어에 능숙할 수록 뒤로 가는 경향이 있고, 왼쪽 맨 아래 자리만 유독 한국어에 미숙한
패널이 고정적으로 출연하는 자리로 잡힙니다. 그런데, 이 경우에는 경향이 있기는 해도 앞의 그래프만큼
뚜렷한 상관관계까지는 아닌 것으로 보입니다. 역시 “꿍꿍이”의 실체는 “어리고 이쁜 애들”에 훨씬
치우쳐져 있음을 알 수 있습니다.

각 자리들끼리 비슷한 패널이 앉는 자리가 있나?

어느 자리가 좋은지를 주관적인 데이터로 결론을 도출했기 때문에, 좀 더 객관적인 데이터로 경향을
참고해 볼 필요가 있어서 각 자리별로 해당 자리의 출연자와 다른 자리 출연자의 구성이 얼마나
비슷한가를 조사했습니다. 여기서는 1~2회만 출연한 사람들은 비교가 큰 의미가 없기 때문에,
10번 이상 출연한 31명에 대해서만 비교하였습니다.

밝은 초록색은 강한 상관관계, 붉은색은 아주 약한 상관관계, 검은색은 평균입니다.
11은 맨 앞줄의 맨 왼쪽을 의미하는데, 11과 3번째 줄 이후로는 다른 자리들보다 특별히 다른 것을 알 수
있습니다. 비슷한 부분을 보면, 맨 뒷줄의 왼쪽 3자리가 서로 굉장히 비슷하고, 맨 앞줄 중간 2자리와
그 다음 줄 중간 2자리가 서로 비슷합니다. 맨 오른쪽 자리들은 옆 자리들과 유사도가 좀 따로 노는데요,
이건 아무래도 맨 오른쪽 줄에 주로 키가 큰 패널들을 주로 배치하는 경향이 있어서가 아닌가 싶네요.

시간이 지나면서 꿍꿍이가 강화되거나 약화되었는가?

처음엔 의도가 없다가 중간에 생기거나, 패널 풀이 커지면서 다양성이 확보가 되었는지 등의 경향을
보기 위해 각 패널의 주변 5회에서 “중심거리”가 얼마나 변하는지 조사해 봤습니다.

윗쪽 그래프는 각 회별 주변 5회에서 연속 5회 모두 또는 4번 이상 출연한 패널이 얼마나 되는지를
나타내는데요, 처음에는 5번 모두 출연한 패널이 10~12명까지 되다가 점점 떨어지는 경향을 보면
패널이 다양화되는 경향이 좀 있는 걸 알 수 있습니다. 17회, 33회, 41회 같이 파란색, 빨간색이 위 아래로
피크가 반대로 떨어지는 곳을 보면, 둘이 따로 놀지 못하는게 역시 바뀌어 봐야 그 사람이 그 사람이란
걸 알 수 있구요.

아랫쪽 그래프를 보면, 처음엔 편차가 높다가 점차 뚝뚝 떨어지고 있는데요. 처음엔 자리잡기 전이라
좀 자리를 자주 여기저기 옮겨보다가 안정화 되고 나서 의도를 가진 꿍꿍이 배치가 시작된 것 같군요.
19회 ~25회 사이를 보면, 연속출연자는 상당히 많은데도 중심거리 표준편차가 뚝 떨어진게, 사람은
안 바뀌고 자리는 고정되고, 한참 식상하다는 소리를 집중적으로 듣던 시절이라는 걸 반영하고 있습니다.

패널들이 개인별로 시간이 지나면서 자리가 변하는가?

전체적인 평균 위치 말고, 개인별로도 시간에 따라 변할 수도 있을 것 같아서, 조사를 해 봤습니다.
전체 패널이 60명이 넘어서 다 그릴 수가 없다보니 자리가 특색이 있는 몇 명을 추렸습니다.

의도를 가지고 배치되는 중심 위치에서의 거리의 변화 (맨 윗 그래프)를 보면 1회부터 최근회까지
각각의 자리가 어떻게 변해왔는지를 보이고 있습니다. 굳이 따로 해석을 안 해도 그래프 자체가
추세를 보이고 있지만, 전체적으로 출연 초기에는 앞쪽에 있다가 점점 뒤로 밀려나가는 경향이
보입니다. 도미니크는 약간 좀 다른데, 앞뒤로 왔다갔다를 반복하고 있는데 주기가 빨라지고 있군요.

아래의 두 그래프는 그냥 데이터에서 바로 나온 세로줄과 가로줄 위치에 따른 것인데, 세로 줄은
대략 비슷하지만, 가로줄은 개인적인 추세만 봐도 전부 중간으로 몰려가는게 평균치로 수렴해버리는
게 그다지 의도적인 배치가 없다고 볼 수 있구요. 가로줄에서의 경향은 역시 한국어를 잘 못하는
자리에 고정배치된 엘리자베타와 키 큰 패널들만 집중적으로 앉히는 오른쪽 끝자리의 라리사의
경향을 파악할 수 있습니다.

어느 자리에 앉는 사람이 오래가는가?

패널들 중에서 50회를 넘게 출연하는 패널도 있는 반면에 1~2회만 출연한 패널들도 상당히 많습니다.
그래서, 어느 자리에 앉으면 장기 출연이 가능할까! 명당자리를 한 번 뽑아 봤습니다. 물론, 출연 하기도
전부터 제작진이 나름대로 판단한 것이 영향을 좀 미칠지도 모르겠네요.

붉은색은 해당 위치에 앉은 패널들이 출연횟수가 적고, 초록색은 많고, 검은색은 평균임을 뜻합니다.
(원의 크기도 클 수록 출연횟수가 많습니다.) 여기서 보면 한국어 초보자 좌석인 왼쪽 맨 아랫자리가
역시 출연횟수가 두드러지게 적고 (24.27번), 오른쪽 윗줄은 오랫동안 꾸준히 출연하는 사람들의 자리(32.75번)입니다.
의외로 맨 뒷줄 왼쪽자리와 앞줄 3번째 자리가 출연횟수가 낮은데, 보통 새로 출연하는 패널들의
자리로 이 두 자리가 많이 활용되는 것 같군요.

결론!

미수다의 자리배치에는 뭔가 뚜렷한 경향이 있음을 알 수 있을 것 같고요, 제작진이 의도를 하건
안 하건 생각보다 다양한 요소들이 꾸준히 개입하고 있다는 것을 보았습니다. 좀 더 객관적인
자료를 위해서 방송에 나온 시간이나 방청객들의 반응 등을 모두 측정하여 사용했으면 더
좋은 자료를 만들 수 있었을 것 같은데, 좀 아쉽네요. (;;;;)