전에 올렸던 한국인의 이름 통계를 많은 분들이 관심있게 봐 주셔서,
본인 이름은 얼마나 많은가요, 얼마나 중성적인가요 같은 질문을 많이 받았습니다.
그래서 직접 확인하실 수 있게 통계에서 나온 여러 자료들을 모아서 한 페이지에
보이도록 서비스를 만들어 봤습니다.
대부분은 이전 글에서 소개해 드렸던 내용이고요, 이번에 추가된 부분은 통계에서
자료가 충분하지 않을 때 자동으로 추정하는 것과 이름이나 글자가 시대가 바뀌면서
어떤 빈도 변화가 있는지 그래프로 나타내는 부분입니다.
자동 성별 추정 부분은 통계 수치없이도 단순하게 바로 이름에서 예측할 수 있게
하기 위해 피처는 그냥 이름을 자소로 쪼갰고, random forest를 사용했습니다.
(옵션은 리그레션, 500그루, mtry=3, R randomForest 패키지 사용)
10배 교차검정에서 피어슨 연관성이 0.97이 나와서 대략 결과는 좋긴 한데, 실제로 보다 보면
얼토당토않은 결과가 심심찮게 나옵니다;; 나중에 제대로 쓰려면 글자 단위 통계도 피처로
좀 추가해야할 것 같네요.
그리고, 역시 이름도 시대별 흐름이 있는데요. 예를 들어 미자, 혜자, 경자 같이 -자로
끝나는 이름은 60년대생까지 매우 흔한 여자 이름이었지만 70년대부터 급속히 사라지는데
그래프로 직접 이런 경향을 확인할 수 있도록 했습니다. 데이터셋이 그렇게 크지 않기 때문에
그냥 생데이터를 쓰지는 못하고, 9년 단위 슬라이딩 윈도우 평균으로 했기 때문에 갑자기
튀는 최고점 같은 것은 좀 무시되었습니다. (이 분석을 위해 “생년”만 추가로 데이터를 받아서 보충했습니다.)
자 그럼 본인 이름을 넣어보세요~ —-> 내 이름 어때! <—-
트랙백이 안보내지는데..주소도 안보이고.. ㅠㅠ
그래서 링크 남겨용~ http://kkommy.com/1170256426
아싸 일등!
ㅋㅋ 재밌어요.
여친과 제 이름을 넣어보고는 통계의 무서움에 깜짝 놀랬습니다.
모두 각자의 성에 충실한 이름이었으며, 심지어 저희 커플의 나이차이까지 맞추네요! ㄷㄷㄷ
전 이름이 한글자에요 ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ 하고 싶어도 못하는 신세 ㅠㅠㅠㅠ
우와 너무 대단한데요? 거기다 재미있기까지. ㄷㄷㄷ
저도 재미있게 하고 갑니다. ^^
횽님은 이제 통계전문가로 나서도 될듯~
천재이십니다. ㅠㅠ
와이프 이름이 ‘춘선’인데 이게 어떻게 남성스러운 이름인지? 제 상식이 잘못된 걸까요 -_-;
재밌네요.. 근데 버그가.. http://openlook.org/app/nameanalysis/?name=%EC%86%90%EC%98%81%EC%A7%84 내용에 ㅅㅇㅈ 이어야 하는데 ㅂㅇㅈ 으로나오네요
모노마토님: 한글자나 세글자 이름도 다음에 통계 샘플이 충분히 확보되면 꼭 해 보도록 하겠습니다;; (지금은 너무 자료가 모자라서요 -ㅇ-)
Eminency님: 크;; 제한된 정보로 자동학습을 하다보니 사람이 느끼는 온전한 느낌하고는 좀 다르게 학습됐을 수도 있습니다. ;; -ㅇ-;
ㅅㅇㅈ님: 아까 접속량이 폭주하는 바람에 캐시를 넣다가 실수로 성이 다르면 다르게 나와야하는 부분까지 캐시를 해 버렸네요; 지금은 수정했습니다. ^^; 감사~
kkommy님: 어이쿠. 이런 트랙백이 최근에 하나도 안 들어오더라니 뭔가 문제가 있었나보네요. Y.Y
이웃님의 포스트를 보고 다녀갑니다.
좋은 정보로 이름도 풀어보고 다녀 갑니다.
저역시 트랙백이 안가네요.
http://mr-dust.pe.kr/entry/how-many-people-has-the-same-name-with-me
역시나 이름 관련 글은 인기 폭발이군요! +ㅁ+
다음은 漢字 고고~!!!(멋대로 추천 죄송~-_-;;)
제 이름 ‘김선휘’를 입력하면 통용되지 않는 자모가 들어있다고 나오네요 ㅠㅠ
‘김휘선’은 가능한데 어째서 일까요? ㅠㅠㅠㅠ
앞,뒷 글자가 따로 따로 잡혀서 그런데.. 뒷 글자에서 “ㅟ”가 통계에서 한 건도 안 나왔나보네요;;
생각보다 “휘”를 뒤에서 꽤 본 것 같은데… -ㅇ-;;;
이름이 세자라서 안되네요, 아쉽습니다- 친구들 이름 넣어봐야겠네요(히죽)
오픈룩은 약간 남성스러운 이름, 이눅스(리씨는 안받아주네요)는 매우 중성적인 이름이라고 나오네요. 파이썬을 안받아주는게 아쉽습니다.
그냥 재미로 해봤어요.(이상한 장난해서 죄송…)
우왕ㅋ굳ㅋ 제 이름 끝자리는 림,임을 쓰는데 바꿔해보니 엄청나게 다른 결과네요.. 림은 80년대에 인기있었고 임은 64년쯤에 인기있었다뉘 ㅋㅋㅋㅋ
여자이름 중에 273번째로 인기있는 이름이래요. 웃겼슴다
애리님: 처음에는 “흔한” 이름으로 했었는데, 많은 분들이 이름이 흔하다고 슬퍼하셔서 인기있는 이름으로 바꿨습니다. ^_^;