국회 의안공동발의 경향

Science에 3월 7일자로 COMPUTER SCIENCE: Science 2.0라는 Perspective가 올라왔습니다. 좀처럼 안 올라오는 CS관련 글이 최근에 몇 개가 연달아 올라왔는데, 그래서 보고 있다가 중간에 붙어있는 그림 1 (정치 네트워크)을 보고 우리나라도 이런 것 하나 그려보면 정말 재미있겠다 하고 완전 꽂혀서 최근에 그래프 툴도 하나 익혀야겠다 생각이 들어서 이걸로 주말을 날렸군요 -ㅇ-;

구체적으로 저 그림을 방법에 대해서는 나와있지 않아서 그냥 대충 그림 설명의 어감을 보고 따라해 봤습니다. 우선 국회법률정보시스템에서 17대 국회 중에 통과된 개정안을 모두 긁어왔는데요, 대략 2300건 정도 되는군요.
현재 국회의원직을 유지하는지 여부는 상관 없이 의안에 한 번이라도 개입했던 의원들 중 활동이 충분한 의원은 모두 대상으로 넣었습니다.
처리된 의안 중 정부가 제안한 것과 상임위원장이 올린 법안들은 누가 올렸는지 뚜렷하게 적혀있지 않기 때문에, “XXX의원외 ~명 발의”로 되어있는 것들을 추렸는데, 총 780건 정도 되는 것으로 결국 분석했습니다. 여기서 의안을 같이 발의한 경우에 1점씩 추가해서 각 의원간의 NxN 행렬을 계산했습니다.

아무래도 이런 방식으로 의안을 많이 올리는 의원도 있고 (최고는 220건), 중간에 사퇴하거나 보궐선거로 들어오거나 장관직 수행 등으로 참석 횟수가 적은 의원들이 있기 때문에 (최저는 대략 1~2회 내외), 각 참여의 중요도를 반영하기 위해 표준 점수(Z-score)로 계산하고, 양쪽 의원간의 상호 점수 중에 낮은 것으로 양쪽 모두에게 적용했습니다. 그리고, 이 그래프를 네트워크 분석 프로그램 중 가장 널리 쓰이는 Pajek에 넣어 분석했습니다. (사실은 NetworkX를 쓰고 싶었지만, 엣지가 너무 많아서 뻗어버리더군요 –;)

요렇게 나옵니다. 대략 사이언스에 나온 그림과 비슷합니다. 하하하 (괜히 뿌듯;;;;)
사실은 자격불만족이나 기타 다른 사유로 활동이 적은 의원들을 제거해서 바깥쪽으로 멀리 떨어져나간 점은 좀 쳐냈습니다.
(구체적으로 자세히 보시려면 여기 –> Kamada-Kawai 레이아웃, Fruchterman Reingold 레이아웃)

구체적으로 숫자들로 데이터를 보면 상당히 재미있는 게 많이 있었는데, 그래프로 그려서는 어떻게 재미있는 걸 표현하기가 좀 힘드네요. -ㅇ-;; 제가 관심이 많았던 전/현 민주노동당 의원들 주변 자료만 좀 살펴보면, 작은 당들이 주로 자기들끼리 힘 모아서 같이 발의하는 경향이 훨씬 뚜렷하고, 표준 점수로 하다보니 다른 당 의원들과의 점수가 엄청 떨어지는군요. 전/현 민주노동당 의원들에서 밖으로 나가는 고리는 주로 강기갑, 최영순 의원이고, 재미있게도 민주당 비례대표 1번이었던 손봉숙 의원이 드물게도 대부분의 전/현 민주노동당 의원들에게 연결되어 있습니다.

혹시 나중에 또 새로운 툴 배울 일이 생기면 더 분석해서 올려 보겠습니다. =3=33

더 자세한 데이터에 관심있는 분들을 위해서 표준점수 데이터를 공개합니다.
(사실 위 그래프 말고도 하나 더 그리긴 했는데, 설명을 쓰고보니 글이 너무 길어져 재미없어져서 설명은 생략합니다;;)

도메인 yonsei.net 새 주인을 찾습니다.

제가 가지고 있는 도메인 중에 yonsei.net 을 이제 졸업도 하고 했으니 좀 더 유용하게 쓰일 곳을 찾아 넘겨 드리려고 합니다. 아무나 드리기는 좀 그러니, 다음 조건에 맞는 분께 신청을 받아서 제가 생각하기에 가장 적당하다고 생각되는 분께 드리겠습니다. 학교 기관 또는 동아리 등 수익이 목적이 아니라고 판단되는 곳에는 무상으로 양도해 드릴 생각입니다. (아래에서 “학교”는 연세대학교입니다.)

도메인을 받을 분의 조건

  • 학교 기관 또는 동아리, 학내언론기관, 학생단체, 또는 전적으로 학교, 재학생/동문과 관련된 서비스를 운영하는 단체이어야 함. (총학생회나 단과대학생회처럼 매년 관리주체가 바뀌는 곳은 제외)
  • 구체적인 도메인의 활용목적이 제시되어야 하며, 많은 재학생들이 방문하는 사이트로 이미 운용 중이라면 더 좋음.
  • 기술 외적 측면을 포함하여 오랫동안 안정적으로 운용이 가능해야 함.
  • 현재 yonsei.net에서 사용하고 있는 메일 주소 2개의 메일 포워딩(트래픽은 거의 없음)과 하위 도메인 1개의 NS레코드 위임이 최소 5년 이상 안정적으로 제공돼야 함.
  • 나중에 쓰지 않게 되면 반드시 학교 또는 적절한 사용처가 있는 곳에 무상으로 양도해야 함.

1달 뒤인 4월 11일까지 제 메일 주소(옆에 “좀 더 관심있어요” 누르시면 나옵니다~)로 메일을 보내주시면 그 후에 적절한 분을 선정해서 양도하겠습니다~ (적당한 분이 없다고 생각되면 그냥 1년 정도 더 가지고 있다가 다시 내년에 -ㅇ-)

주변에 관심이 있을 만한 분이 있으시면 이 얘기를 전해주세요~

채팅할 때 많이 쓰는 한글

갑자기 궁금해서 한 번 조사해 봤습니다. ;; 채팅할 때 주로
쓰는 글자는 몇 개나 되고 전혀 쓰이지 않는 KS X 1001 완성형
글자도 있을까!

그래서 대상은 2004년 12월 27일부터 오늘까지 HanIRC의 #perky, #tokigun 등 제가 들어갔던 채널들의
채팅 로그를 가지고 분석해 봤습니다. 분석 대상 한글 글자 수는 모두 54,723,296 글자였습니다. (많이도 떠들었다;;)
가장 많이 쓰이는 글자 20개는 다음과 같이 나왔군요.

~는 ~군요. ~이 ~고.. 역시 조사가 압도적이네요. “하”나 “아”는 조사가 아닌데도 명사나 기타 다른 곳에서 많이 쓰인 모양입니다.
저걸로 뭔가 문장을 만들 수도 있을 것 같았는데 해 봐도 잘 안 돼서 일단 ;;

반면에 한 번도 안 쓰인 KS X 1001 완성형 글자들도 몇 개 있었는데 다음과 같습니다.

흽횝혤퓜푭폘틥틜튱튁툿턺쵭쵬촁쳰쬈쫬쫠쩽쥣줆죌좼졺욀얩씐쐽쐼쐴썲쇘쇔쇌솖섕섐섈섄뺙빎붊묑묍묄묀룅뢨롑띳띕뙨똴덖늚뇝뇜뇔꾈꾄괩괆

저 글자들을 활용해서 아이디를 만들면 아이디 겹칠 일은 없겠네요~ \o/

그럼 확장완성형 중에 무슨 글자가 많이 쓰였을까 생각해 보면, “뷁”, “횽” 같은 게 압도적으로 앞에 나올 것 같은데요~

대충 경향을 보면 닉네임을 줄여서 부르는 것(☆)이 4개, 독립적인 인터넷 언어(◎)가 9개, 오타(◆)가 7개로, 생각보다 닉네임 줄여서 부르는 것의 비율도 꽤 되고, 오타도 다양하군요~

그래서, 과연 자주 쓰는 글자들이 얼마나 비중을 차지하는지 살펴보면

위의 파란 곡선은 완성형, 빨간 곡선은 확장완성형 글자이고, 세로축은 비중이 많은 순서로 정렬한 누적 글자수 입니다. 파란 곡선에 비해 빨간게 훨씬 가파른게, 확장완성형에만 있는 글자들이 일부에 대한 편중이 심하다는 걸 볼 수 있고요, 당연히 KS X 1001 완성형 글자들이 편중이 좀 덜 되어 있는게 영 발로 만든 건 아니구나 뻔한 사실을 한 번 확인해 봅니다 –;

몇 글자만 있으면 90%를 쓸 수 있을까도 보통 많이 하는 조사인데요, 완성형은 90%까지 351자(최~복 사이), 95%까지 511자(효~착 사이), 99%까지 903자(깜~벼 사이) 입니다. 아무래도 자주 쓰이는 글자를 뽑아놓은 문자셋이라서 생각보다 골고루 쓰이고 있네요.

혹시나 이 자료를 어디에 쓰실 분이 있을까봐 조사 결과를 공개합니다. –;;;;; (KS X 1001 완성형, 확장완성형 확장한글)