내 이름 어때? -- 한국인의 이름 2탄!
- 2008년 5월 27일 4시 58분
- 댓글 23 개
전에 올렸던 한국인의 이름 통계를 많은 분들이 관심있게 봐 주셔서, 본인 이름은 얼마나 많은가요, 얼마나 중성적인가요 같은 질문을 많이 받았습니다. 그래서 직접 확인하실 수 있게 통계에서 나온 여러 자료들을 모아서 한 페이지에 보이도록 서비스를 만들어 봤습니다.
대부분은 이전 글에서 소개해 드렸던 내용이고요, 이번에 추가된 부분은 통계에서 자료가 충분하지 않을 때 자동으로 추정하는 것과 이름이나 글자가 시대가 바뀌면서 어떤 빈도 변화가 있는지 그래프로 나타내는 부분입니다.
자동 성별 추정 부분은 통계 수치없이도 단순하게 바로 이름에서 예측할 수 있게 하기 위해 피처는 그냥 이름을 자소로 쪼갰고, random forest를 사용했습니다. (옵션은 리그레션, 500그루, mtry=3, R randomForest 패키지 사용) 10배 교차검정에서 피어슨 연관성이 0.97이 나와서 대략 결과는 좋긴 한데, 실제로 보다 보면 얼토당토않은 결과가 심심찮게 나옵니다;; 나중에 제대로 쓰려면 글자 단위 통계도 피처로 좀 추가해야할 것 같네요.
그리고, 역시 이름도 시대별 흐름이 있는데요. 예를 들어 미자, 혜자, 경자 같이 -자로 끝나는 이름은 60년대생까지 매우 흔한 여자 이름이었지만 70년대부터 급속히 사라지는데 그래프로 직접 이런 경향을 확인할 수 있도록 했습니다. 데이터셋이 그렇게 크지 않기 때문에 그냥 생데이터를 쓰지는 못하고, 9년 단위 슬라이딩 윈도우 평균으로 했기 때문에 갑자기 튀는 최고점 같은 것은 좀 무시되었습니다. (이 분석을 위해 "생년"만 추가로 데이터를 받아서 보충했습니다.)
자 그럼 본인 이름을 넣어보세요~ ----> 내 이름 어때! <----

