채팅할 때 많이 쓰는 한글
- 2008년 3월 6일 17시 39분
- 댓글 7 개
갑자기 궁금해서 한 번 조사해 봤습니다. ;; 채팅할 때 주로 쓰는 글자는 몇 개나 되고 전혀 쓰이지 않는 KS X 1001 완성형 글자도 있을까!
그래서 대상은 2004년 12월 27일부터 오늘까지 HanIRC의 #perky, #tokigun 등 제가 들어갔던 채널들의 채팅 로그를 가지고 분석해 봤습니다. 분석 대상 한글 글자 수는 모두 54,723,296 글자였습니다. (많이도 떠들었다;;) 가장 많이 쓰이는 글자 20개는 다음과 같이 나왔군요.
누적비율 글자수 글자 2.99% 1636236 이 4.87% 1026920 는 6.70% 999776 요 8.44% 951349 군 10.18% 948018 다 11.78% 875232 고 13.37% 872547 가 14.94% 858935 아 16.49% 842846 나 17.92% 784908 하 19.27% 735143 에 20.47% 657522 리 21.65% 644259 어 22.81% 638026 사 23.96% 627557 지 25.06% 597604 서 26.14% 594294 로 27.17% 560550 그 28.18% 554750 도 29.20% 553821 기
~는 ~군요. ~이 ~고.. 역시 조사가 압도적이네요. "하"나 "아"는 조사가 아닌데도 명사나 기타 다른 곳에서 많이 쓰인 모양입니다. 저걸로 뭔가 문장을 만들 수도 있을 것 같았는데 해 봐도 잘 안 돼서 일단 ;;
반면에 한 번도 안 쓰인 KS X 1001 완성형 글자들도 몇 개 있었는데 다음과 같습니다.
흽횝혤퓜푭폘틥틜튱튁툿턺쵭쵬촁쳰쬈쫬쫠쩽쥣줆죌좼졺욀얩씐쐽쐼쐴썲쇘쇔쇌솖섕섐섈섄뺙빎붊묑묍묄묀룅뢨롑띳띕뙨똴덖늚뇝뇜뇔꾈꾄괩괆
저 글자들을 활용해서 아이디를 만들면 아이디 겹칠 일은 없겠네요~ \o/
그럼 확장완성형 중에 무슨 글자가 많이 쓰였을까 생각해 보면, "뷁", "횽" 같은 게 압도적으로 앞에 나올 것 같은데요~
누적비율 글자수 글자 12.36% 7108 뤂 ☆ 18.59% 3585 횽 ◎ 22.52% 2263 떄 ◆ 26.36% 2205 뷁 ◎ 29.79% 1977 됬 ◆ 32.74% 1696 봣 ◆ 35.69% 1694 햏 ◎ 37.50% 1041 쵝 ◎ 38.36% 496 썻 ◆ 39.18% 470 뵬 ☆ 39.96% 452 핳 ◎ 40.71% 432 졋 ◆ 41.42% 408 췟 ◎ 42.06% 365 쩄 ◆ 42.67% 355 뺴 ◆ 43.28% 349 휏 ◎ 43.88% 343 뮹 ☆ 44.45% 330 앜 ◎ 44.99% 310 훍 ◎ 45.52% 306 젋 ☆
대충 경향을 보면 닉네임을 줄여서 부르는 것(☆)이 4개, 독립적인 인터넷 언어(◎)가 9개, 오타(◆)가 7개로, 생각보다 닉네임 줄여서 부르는 것의 비율도 꽤 되고, 오타도 다양하군요~
그래서, 과연 자주 쓰는 글자들이 얼마나 비중을 차지하는지 살펴보면

위의 파란 곡선은 완성형, 빨간 곡선은 확장완성형 글자이고, 세로축은 비중이 많은 순서로 정렬한 누적 글자수 입니다. 파란 곡선에 비해 빨간게 훨씬 가파른게, 확장완성형에만 있는 글자들이 일부에 대한 편중이 심하다는 걸 볼 수 있고요, 당연히 KS X 1001 완성형 글자들이 편중이 좀 덜 되어 있는게 영 발로 만든 건 아니구나 뻔한 사실을 한 번 확인해 봅니다 --;
몇 글자만 있으면 90%를 쓸 수 있을까도 보통 많이 하는 조사인데요, 완성형은 90%까지 351자(최~복 사이), 95%까지 511자(효~착 사이), 99%까지 903자(깜~벼 사이) 입니다. 아무래도 자주 쓰이는 글자를 뽑아놓은 문자셋이라서 생각보다 골고루 쓰이고 있네요.
혹시나 이 자료를 어디에 쓰실 분이 있을까봐 조사 결과를 공개합니다. --;;;;; (KS X 1001 완성형, 확장완성형 확장한글)
댓글 7 개 | 트랙백 0 개 (보낼곳) | 태그 happyhacking

