채팅할 때 많이 쓰는 한글

갑자기 궁금해서 한 번 조사해 봤습니다. ;; 채팅할 때 주로
쓰는 글자는 몇 개나 되고 전혀 쓰이지 않는 KS X 1001 완성형
글자도 있을까!

그래서 대상은 2004년 12월 27일부터 오늘까지 HanIRC의 #perky, #tokigun 등 제가 들어갔던 채널들의
채팅 로그를 가지고 분석해 봤습니다. 분석 대상 한글 글자 수는 모두 54,723,296 글자였습니다. (많이도 떠들었다;;)
가장 많이 쓰이는 글자 20개는 다음과 같이 나왔군요.

~는 ~군요. ~이 ~고.. 역시 조사가 압도적이네요. “하”나 “아”는 조사가 아닌데도 명사나 기타 다른 곳에서 많이 쓰인 모양입니다.
저걸로 뭔가 문장을 만들 수도 있을 것 같았는데 해 봐도 잘 안 돼서 일단 ;;

반면에 한 번도 안 쓰인 KS X 1001 완성형 글자들도 몇 개 있었는데 다음과 같습니다.

흽횝혤퓜푭폘틥틜튱튁툿턺쵭쵬촁쳰쬈쫬쫠쩽쥣줆죌좼졺욀얩씐쐽쐼쐴썲쇘쇔쇌솖섕섐섈섄뺙빎붊묑묍묄묀룅뢨롑띳띕뙨똴덖늚뇝뇜뇔꾈꾄괩괆

저 글자들을 활용해서 아이디를 만들면 아이디 겹칠 일은 없겠네요~ \o/

그럼 확장완성형 중에 무슨 글자가 많이 쓰였을까 생각해 보면, “뷁”, “횽” 같은 게 압도적으로 앞에 나올 것 같은데요~

대충 경향을 보면 닉네임을 줄여서 부르는 것(☆)이 4개, 독립적인 인터넷 언어(◎)가 9개, 오타(◆)가 7개로, 생각보다 닉네임 줄여서 부르는 것의 비율도 꽤 되고, 오타도 다양하군요~

그래서, 과연 자주 쓰는 글자들이 얼마나 비중을 차지하는지 살펴보면

위의 파란 곡선은 완성형, 빨간 곡선은 확장완성형 글자이고, 세로축은 비중이 많은 순서로 정렬한 누적 글자수 입니다. 파란 곡선에 비해 빨간게 훨씬 가파른게, 확장완성형에만 있는 글자들이 일부에 대한 편중이 심하다는 걸 볼 수 있고요, 당연히 KS X 1001 완성형 글자들이 편중이 좀 덜 되어 있는게 영 발로 만든 건 아니구나 뻔한 사실을 한 번 확인해 봅니다 –;

몇 글자만 있으면 90%를 쓸 수 있을까도 보통 많이 하는 조사인데요, 완성형은 90%까지 351자(최~복 사이), 95%까지 511자(효~착 사이), 99%까지 903자(깜~벼 사이) 입니다. 아무래도 자주 쓰이는 글자를 뽑아놓은 문자셋이라서 생각보다 골고루 쓰이고 있네요.

혹시나 이 자료를 어디에 쓰실 분이 있을까봐 조사 결과를 공개합니다. –;;;;; (KS X 1001 완성형, 확장완성형 확장한글)

9 thoughts on “채팅할 때 많이 쓰는 한글”

  1. 뤂….
    알만한 사람은 다 아는 사람이군요.
    의외로 ‘뵬’이 있다는 사실은 모채널의 ‘볼’님을 기쁘게 할듯 합니다.

  2. 퍼키옹(?)의 분석글을 읽으면… 참 대단하다고 생각합니다…

    학교생활이 좀 널널 하신가 봐요…

    농담입니다….

  3. 잘봤습니다. 재밌네요. 자음, 모음이나 초성, 중성, 종성으로 분석해봐도 재밌겠습니다.

  4. 의문으로 던지신 ‘하’와 ‘아’가 명사나 다른 품사에 사용된다면 ‘하’와 ‘아’가 그리 높은 빈도를 보일 수 없죠. 빈도가 높은 글자라면 어지간한 문장마다 한 번은 들어갈 정도여야 하므로, 특정 문장 유형을 결정짓는 요소인 경우이기 때문입니다.

    ‘하’는 동사가 포함된 문장 대부분이 ‘~하다’로 끝나기 때문에 많이 사용된 것으로 보면 됩니다. ‘채팅하다가’ ‘공부하던 중’ ‘게임하는데요’와 같이 움직씨 낱말은 대부분 ‘하’가 붙죠.

    ‘아’는 일반 소설과 같은 책에서는 빈도가 높은 편이 아닌데요, 대화에서 많이 사용하는 ‘아니다’와 ‘알다’ ‘아!’ 세 가지 낱말 때문에 채팅에서 빈도가 높습니다. ‘아닌데요’ ‘아닐 것 같은데’ 그건 아니고요’ ‘제가 아는 바로는’ ‘아시죠?’ ‘아는 분 있나요?’ ‘아 그렇군요’ ‘아하’ 처럼 부정문과 의문문, 감탄문 유형에는 대개 ‘아’가 포함됩니다.

    하여간 채팅에서 자주 사용하는 글자 통계를 보니 흥미로운 것이 많네요. ‘퍼’가 ‘을’보다 빈도가 높다는 것도 눈길이 가고요. 좋은 자료 감사합니다. ^_^

  5. 각 글자의 출현 빈도가 앞 글자에 독립적이라는 가정 하에서의 분석으로 보입니다.
    bi-gram이나 tri-gram으로 분석해 보면 뭔가 더 나오지 않을까요?
    sequential pattern은 좀 오버일 수도 있겠네요.

  6. 제 통계에서는 ‘이’, ‘다’, ‘의’, ‘기’, ‘는’, ‘지’, ‘하’, ‘사’, ‘에’, ‘가’, ‘시’, ‘자’, ‘고’, ‘로’, ‘을’, ‘한’, ‘서’, ‘니’, ‘인’, ‘리’ 이었습니다. 퍼키 채널분들은 ‘군요’체를 많이 쓰는 모양.

  7. 안녕하세요, 손글씨 연습 용으로 자주 쓰는 한글 리스트를 프린트해서 연습할 목적으로 찾아보다가 이 블로그를 찾게되었습니다.
    맨 밑에 있는 조사결과가 너무 궁금한데 아쉽게도 링크가 열리지 않는군요.
    혹시 아직 자료를 가지고 계시다면 이메일로 보내주실 수 있으시나 궁금해서 댓글을 남겨봅니다.
    제 이메일 주소는 luminescence999@outlook.com 입니다 감사합니다.

Comments are closed.