이어폰 꽂고 몰래 미투데이

종종 뭔가를 읽고 있거나 공부하고 있을 때, 미투가 궁금해서 컴퓨터를 켜고 잠깐 둘러보고
또 아아 이러면 안 돼 하고 끄고 그러는데요. 아흐. 역시 또 켜면 온 동네를 한바퀴 돌고 와서
정작 딴짓만 한참~~

그래서, 문제는 키보드와 모니터다! 하고, 키보드와 모니터가 없을 때도 미투를 할 수 있게 하는
방책을 만들어 봤습니다. "미투에 새 글이 올라오면 읽어주기!"

대충 TTS는 옛날에 보이스웨어라는 회사에서 웹 데모가 있는게
품질이 괜찮았던 것 같고 해서 테스트해보니 그런대로 알아들을 만 하네요. 그래서 간단하게 이렇게
만들어 봤습니다. 🙂

미투 친구들은 방송듣기 (hyeshik) – 플레이 버튼을 누르세요. 글이 새로 올라올 때만 소리가 나기 때문에 보통은 조용합니다.

구성은 이렇게 됐습니다.

미투 친구들은 방송듣기

다행히도 방송 소스를 보내주는 프로그램인 ices0가 파이썬 스크립팅을 지원해서 쉽게 됐네요~

소스코드는 여기에 올려 뒀습니다. (svn으로 받으세요~)

Firefox용 우리말 도우미 1.0.1 업데이트

최근에 신종훈님브루펜시럽님께서 불여우용 우리말 도우미가 돌아가지 않는다는 제보를 해 주셔서 오랜만에 업데이트 했습니다. 제가 사실은 한동안 pdf 플러그인 때문에 사파리만 쓰다 보니 정작 우리말 도우미를 전혀 못 써서 몰랐네요;; -O-;

이번 문제는 신종훈님께서 디버깅을 모두 마치고 패치를 보내주셨기 때문에, 제가 할 일은 따로 없었는데요. 서비스를 제공하는 사이트에서 결과로 body 태그를 2개를 보내는 바람에 생겼던 문제입니다. 여러 방법을 고려해 보다가 그냥 HTML 전체를 innerHTML 로 밀어 넣는 방법을 썼습니다. 좀 거시기하긴 하지만, 앞으로 레이아웃이 계속 바뀔 걸 생각해 보면 별 수가 없네요.. 크흐~

여전히 모래통 안에 있기 때문에, 개발자 사이트에 가입하신 분들만 설치하실 수 있습니다. 우리말 도우미 설치 페이지에서 로그인한 다음에 설치를 눌러 주세요~Watch Full Movie Online Streaming Online and Download

2009년 공휴일은 과연 특이하게 저주받은 것일까?

블로그에 돌아다녀보면 공포의 2009년 달력에 대한 글들이 많이 올라와 있는데요. 공포다, 저주다! 다들 공휴일이 어떻게 이렇게 토, 일요일과 겹칠 수가 있느냐에 대한 분노(!)를 드러내고 있습니다. ^.^;;

공돌이가 이런 상황을 보면 처음 떠 오르는 것은 역시 “과연 p-value가 얼마나 되길래 저렇게 호들갑이야?” 므흐흐;;; 그래서 음력 계산이 간단하게 가능한 1882년부터 2050년까지 2008년에 시행 중인 공휴일을 기준으로 해서 얼마나 공휴일이 겹치는지 봤습니다. 물론 시행 당시의 공휴일로 계산할 수도 있겠지만, 이번에는 다른 변인은 빼고 순수하게 공휴일끼리 겹치는 것이 이정도로 일어나는게 특이한 것인지 보는 것만 하기 위해서!

그런데 마침 찾아보니 토끼군님이 만들어 두신 양음력 변환 모듈이 있어서 생각보다 훨씬 쉽게 일이 되었네요. 2009년이 이렇게 떠들썩 한 것은 추석과 개천절이 겹친 것도 원인 중 하나라서, 토/일이 아닌 공휴일 수가 며칠이나 되는지로 계산했습니다. 2009년은 신년, 설날 2일, 어린이날, 추석 1일, 크리스마스 해서 6일 밖에 안 됩니다. 자 그렇다면 1882년부터 2050년까지 중에서 평일이 공휴일이 되는 날 수의 분포는 어떻게 될까요~

1882~2050년 월~금 공휴일 횟수 분포

2009년이 6일인데, 6일이 무려 1882년부터 2050년 사이에 딱 2년 밖에 없습니다. p-value로는 0.012정도 되는데, 샘플이 169밖에 안 되는 데서 0.012라면 제법 재수가 없는 셈입니다. 쉽게 말해서 85년에 한 번 정도 일어나는 일인 것 +_+ 사람들이 저주받은 해 운운할 만하군요~ 2009년 말고는 1914년이니까 공휴일 계산에서는 의미없는 해입니다. 그러니까 2050년까지는 다시는 이런 일은 없을 거라는거죠. -ㅇ-;

위 분포를 보면 보통 11일 근처에서 많이 걸리는데 공휴일이 기가 막히게 흩어져서 무려 13일이나 쉬는 해도 3년이나 됐는데, 1960, 2031, 2042년입니다.. 까마득하네요. ㅡㅡ;

자 그럼 최근 연도들이나 머지않은 연도들에서 토/일을 제외한 공휴일 수 (2008년 시행 공휴일 기준)가 어떻게 변하는지 한 번 살펴봅시다.

2003~2029년 월~금 공휴일 횟수 변화 (2008년 공휴일 기준)

2009년만 6일로 푹 떨어진 것 외에는 대체로 9일~11일 사이에서 안정적이군요. 그런데 2010년도 8일로 그다지 많은 편은 아니라는.. 2년 연속으로 공휴일이 적네요. 크흐. 2001년이 공휴일이 상당히 많았다고 나와 있는데, 2001년은 사실 놀았던 기억밖에 없어서 일년 내내 공휴일이었던 것 같은 느낌이

자 통계적으로도 2009년은 공휴일이 엄청 겹친 무서운 해입니다. 힘내서 연차 씁시다. -.-b

비슷한 글에는 비슷한 친구들이 댓글을 달까?

인터넷에서 글을 쓰다보면 “왠지 이 글에는 누구 누구가 댓글을 달겠구나.”하고 느낌이 강하게 올 때가 있습니다. 글 올리고 나서 열심히 10분마다 리프레시 하다가 (;;;) 누가 댓글을 딱 달면 “역시 낚였구나!” 하기도 하고.. -ㅇ-; 그렇다면 댓글을 누가 썼는지만 봐도 대략 글 내용을 추정할 수도 있지 않을까요? 그래서 오늘은 미투데이에서 댓글 쓴 친구 목록만 가지고 비슷한 글끼리 묶고 각 친구들의 성향을 분석해 봤습니다. (이제 점점 무슨 인터넷통계 블로그로 변신을 –;)

분석대상은 여러가지 요인들을 고려할 볼 겨를도 없이 그냥 한국 IT블로그계의 여왕벌 이지님의 최근 2달 글로 했습니다. ? (미리 이지님과 댓글을 쓰신 친구분들께 양해를 구하지 못한 점 죄송합니다~)

분석 과정

우선 가설은 “비슷한 글에는 비슷한 친구들이 댓글을 단다.”로 세웠습니다. 그 후의 분석과정은 생략하고 Orange의 플로우 그림으로 대체합니다. 최초 입력은 친구가 각각 해당 글에 댓글을 썼는지 여부를 0/1로 표시한 큰 행렬에서 몇 종류의 노이즈를 제거했습니다.

댓글 경향 분석 과정 (Orange)

비슷한 댓글을 다는 친구 묶음

이렇게 해서 나온 결과로 각 친구들끼리 얼마나 비슷한 글에 댓글을 달고 있는지를 보여주는 다음 그림이 나왔습니다.

비슷한 댓글을 다는 친구 클러스터
큰 그림

비슷한 경향의 친구들끼리 같은 클러스터(색깔)로 묶였는데, 파란색(1) 묶음은 다른 묶음에 비해 다양한 친구들이 묶여있고, 다른 묶음들은 각기 독특한 경향이 있습니다. 위 그림은 7가지 글에서 댓글을 달았는지 여부를 가지고 각 친구들 경향을 눈으로 잘 보이게 그림으로 그린 것인데요. 각 글(회색점, 글 내용은 흰색 네모)에 댓글을 쓴 경우에 점에 가깝게 표시되어 있습니다. 14, 39번 글에 파란색 친구들이 많이 몰려있고, 83번 글에는 빨간색 친구들이 많이 몰려 있습니다.

파란색 친구들은 대체로 누구나 쉽게 글을 달 수 있는 글에 댓글을 단 경우가 많았고요, 빨간색, 초록색 친구들은 각기 독특한 성향이 있었는데, 윗 그림에서는 잘 나타나지는 않았지만, 빨간색은 학술적인 글이 많이 포함되어 있었고, 초록색은 친한 친구들이 댓글을 달 만한 글들이 많았던 것 같네요.

비슷한 친구들이 댓글을 다는 글들의 묶음

실제 위에서 나타난 친구묶음들의 분포를 기준으로 다시 글의 분포를 구성해 보면

비슷한 친구들이 댓글을 다는 기준으로 글을 분류

그림이 글을 표시하기는 좀 빽빽해서 각 친구묶음들이 선호하는 글의 대표적인 사례 몇 가지를 뽑으면 이렇습니다. (전체 텍스트 목록)

친구묶음 1(파란색)이 좋아하는 글
친구묶음1 친구묶음2 친구묶음3 친구묶음4 댓글수 내용
0.64 0.20 0.25 0.00 44 <다찌마와 리> 시사회 티켓 득템~♬ (근데 너무 바빠서 갈 수 있을지…)
0.43 0.20 0.00 0.00 87 (삼계탕 말고) 보양식으로 무엇이 있나요?! 몸이 좀 허해진 것 같아서… 내일 좀 챙겨먹으려구요.
0.36 0.20 0.00 0.00 27 (집에서는 커피 금지령이 내린 관계로) 밤샘 작업을 위해 할 수 없이 커피를 사왔는데, 이렇게 맛이 없을 수가… 야식 배달 전문점 말고, 밤샘 커피 배달 전문점이 있다면 얼마나 좋을까…
0.14 0.00 0.00 0.00 46 이제 미투사무실 왔어요~♥
친구묶음 2(빨간색)이 좋아하는 글
친구묶음1 친구묶음2 친구묶음3 친구묶음4 댓글수 내용
0.00 1.00 0.00 0.17 40 미투데이 사례로 논문 쓰려니 힘들어요. 왜냐구요?! 자료가 너무 없어~ 조만간 미투 사무실 습격해야겠다~ 요구하는 정보 다 내놔라!
0.14 0.40 0.00 0.00 33 어떤 논문에서, “(…) frequent IM users tend to exchange shorter messages over a longer period of time, and they are more likely to engage in multitasking.”
0.07 0.40 0.00 0.17 24 어떤 논문을 보니, dodgeball 창업자는 자사 서비스에 대해 “facilitating serendipity”라고 말했더라. 이 대목에서 난 너무 웃었다. 이쯤되면, 만박 님도 한말씀 하셔야죠? 미투에 커플이 몇인데! ^-^
0.07 0.40 0.25 0.00 21 한국언론재단의 2008년도 수용자 의식조사에 따르면, 매체 영향력 및 매체신뢰도 조사 결과가… 1위 KBS, 2위 MBC, 3위 NAVER라고. (오늘 각각 1위부터 10위까지 봤는데 좀 놀라웠어요. 조사를 어떻게 했는지…)
친구묶음 3(초록색)이 좋아하는 글
친구묶음1 친구묶음2 친구묶음3 친구묶음4 댓글수 내용
0.14 0.00 0.75 0.17 48 어제 득템한 노트북~ 잘되네~♬
0.07 0.20 0.75 0.00 22 무언가를 반드시 쟁취하고자 하는 욕망, 이라는 것이 없는 사람.
0.14 0.20 0.75 0.00 37 A Grammar of the Multitude. 나에게는 이 책이 두 권 있다. 나머지 한 권으로 무엇을 하면 좋을까~?!
0.07 0.00 0.50 0.00 9 시간은 왜 항상 부족할까…
친구묶음 4(주황색)이 좋아하는 글
친구묶음1 친구묶음2 친구묶음3 친구묶음4 댓글수 내용
0.00 0.00 0.00 0.50 17 이 책을 편의점(!)에서 파는 것을 보고, “이 정도로 베스 트셀러야?!”하며 경악했던 적이 있는데. 정말 많이 팔렸구나. 울 엄마 말씀으로는, 외숙 모들도 다 읽으셨단다. (엄마도 요즘 읽고 계신다…)
0.00 0.00 0.00 0.50 19 1976년 생인 이 책의 저자는 도쿄대학교 대학원 박사과정을 “수료 후 자퇴”했다. 꾸준히 논문과 저서를 발표하고 있고, 박사논문을 포기할 상황도 아니고, 후속 연구도 정했고, 다른 직장으로 외도한 적도 없고, 지도교수와의 관계도 좋은데… 왜?!
0.57 0.00 0.50 0.83 68 2년 동안 함께 만든 책인데, <문화관광부 우수학술도서>로 선정되었어요!!! 글 쓰고, 편집하고, 섭외하고… 열심히 뛴 보람이 있구나~ㅠ_ㅜ ( “보람”이라는 단어는 이럴 때 쓰는 건가봐~)
0.14 0.00 0.25 0.50 24 이 책의 원제는 [불안형 내셔널리즘의 시대]. 그런데 역서 제목이 이렇게 뽑혀버려서~ 마치 가벼운(!) 시사평론집처럼 느껴진다. (사실은 그렇지 않 은데~ 한번쯤 읽어봐도 괜찮은 책인데~ 주위에서 이 책 구입한 사람 나밖에 없어~ㅠ_ㅜ)

각 친구묶음의 각 글에 대한 경향

위 결과에서 보면, 2, 4 묶음은 비교적 뚜렷한 경향이 있는데, 1과 3은 아주 눈에 띄지는 않습니다. 그래서, 각 친구묶음이 다른 친구들이 더 좋아하는 글들에도 댓글을 쓰는 경향이 얼마나 되는지 봤습니다. 즉, 자기 취향의 글에 대한 일편단심 충성도(?)라고 볼 수도 있겠죠.

친구묶음들이 각 다른 취향의 글에 댓글을 다는 경향

이렇게 보면 뚜렷하게, 첫번째 묶음 (파란색)은 뚜렷한 경향없이 평균적으로 모든 취향의 글에 댓글을 달고, 다른 친구묶음의 친구들은 뚜렷한 취향을 가지고 “책 관련 된 글” 또는 “행사/학술 관련된 글”에만 댓글을 달고 있다는 것을 볼 수 있습니다. (그래프의 수치는 해당 친구묶음 내의 관련 글묶음 댓글 빈도 %) 그리고, 또 특이한 것은 파란색과 초록색은 모두 일상생활 또는 사적인 감정에 대한 글들 취향이었는데, 초록색은 누구나 댓글을 쉽게 다는 파란색 취향에는 오히려 댓글을 더 적게 달았군요. ^^;

정리

대략적으로 가설에서 세웠던 것대로, 적지 않은 친구들이 뚜렷한 자기 취향을 갖고 관심 글에만 댓글을 달고 있다는 것을 확인할 수 있었고요, 이를 토대로 댓글을 단 친구의 구성만 봐도 대략적인 글 내용이나 성향을 파악할 수 있다는 것을 알게 되었습니다.

사실 뭐 누구나 이미 감으로 알고 있는 것이지만.. 그냥… 진짜 그런지 확인해 보고 싶었어요 ^^;;

덧붙임: 여기서는 k-means clustering과 빈도수 샘플링 같은 간단한 것들만 사용했는데, 실제로 이 모델을 제대로 묘사하려면 MCMC EM같은 숨은 확률을 반영할 수 있는 도구를 써야할 것 같습니다.Watch Full Movie Online Streaming Online and Download

플레임에서 승리하는 자의 선택 [우리말 도우미], 지뢰밭용 업데이트

우리말 도우미

예전에 올렸던 우리말 도우미
한동안 잊고 있었는데 불여우 3.0 지뢰밭 출시가 임박해서 많은 분이 요청해 주셔서 3.0 용으로 갱신했습니다.

우리말 도우미 1.0 (불여우 부가 기능) 설치

3.0 지원 외에는 아주 사소한 레이아웃 관련 변경이 몇 개 있었지만 별로 눈에 안 띌 것 같네요 -ㅇ-;

아직 모래통 안에 들어 있어서 쉽게 설치가 안 되고, 사이트에 로그인해야지만 됩니다. 므흐흐..
언젠가는 모래통을 탈출하여 쉽게 설치할 수 있는 날이 오겠죠. -ㅇ-;

이번 업데이트에 큰 도움을 주신 신종훈님께 감사드립니다.Watch Full Movie Online Streaming Online and Download

“내 이름 어때” 만든 이야기~

며칠 전에 올렸던 “내 이름 어때?”를 만들면서 썼던 여러 가지 기술적인 부분에 대해서
간단하게 정리해 봅니다. 물론 django로 만들었습니다! 이히히

Django 템플릿에서 한글 조사 처리

이름 뒤에 은/는 이/가 같은 것들을 제대로 붙이려면 아무래도 템플릿에서 처리를 해 줘야하는데,
django에서는 애플리케이션에서 직접 템플릿 태그나 필터를 정의하는 걸 매우 장려하는 분위기라서
“필터”를 따로 정의해서 처리했습니다.

템플릿에서 이렇게 쓰려고 하는 부분이 있다면:

필터 정의를 이렇게 해 줬습니다.

마지막 줄에서 1:로 굳이 잡아준 이유는 이름 뒤의 ~이 처럼 받침이 없으면 끝에 안 붙는 경우도
처리해 주려고요..

추세 해석

이름의 인기가 늘고 있는지 줄어드는지를 글자로 판단해서 표현해 주기 위해서, 간단한 계산식을
사용했습니다. 우선 원 데이터 자체는 샘플수가 적어서 노이즈가 많기 때문에 보통 많이 쓰이는
9개 윈도우 평균으로 했고, 이렇게 하면 18개 포인트가 나와서 세 부분으로 나눠서
앞 중간 뒤의 평균을 다시 구해서 3가지 값이 나왔습니다. 그래서 눈으로 딱 보면 값이 계속
증가하는지, 올라갔다 내려갔다 하는지를 볼 수 있는데요, 그냥 값으로 볼 수는 없으니
앞/중간 과 중간/뒤의 각각의 변동폭을 0에서 1사이로 정량화해서 봤습니다. 변동폭은 이름마다
절대량이 다르기 때문에 상대량으로 비교해야해서 아래와 같은 식으로 썼습니다.

\delta = {{\arctan {\log {N_B \over N_A}}} \over \pi} + 0.5

보기엔 약간 쓸데없이 복잡하긴 하지만, 그냥 상대비율을 (0, 1) 사이로 넣어주는 일 밖에 안 합니다;;;

이렇게 나온 값으로 앞 뒤가 모두 (0.4, 0.6) 구간에 들어오면 “꾸준한 추세입니다.”라고 하거나,
앞-중간은 (0.0, 0.3), 중간-뒤는 (0.0, 0.5) 구간에 들어가면 앞 반쪽에서 감소세가 강하고
뒷 반쪽에서 감소세가 둔하다는 의미이므로 “확 줄어들다가 잦아드는 추세입니다.”라고 보여주는 식으로
주된 패턴들을 “대충” 느낌으로 나열하는 방법으로 코딩했습니다. 크흐;

구글 차트

이름 전체의 성별 성향이나 이름의 시대적 경향, 이름 글자의 시대적 경향을 보이는 부분에서
구글 차트를 불러서 사용했습니다. 구글 차트는 직접 URL을 코딩하는 방법은 아니고,
pygooglechart를 사용했는데요,
이게 의외로 그런대로 잘 만들어서 웬만한 기능은 불편없이 쓸 수 있게 돼 있더군요. ?

다만, 하나 기술적인 문제가 있었던 부분은 이름 글자의 시대적 경향 같은 경우에는
글자마다 실수값 18개씩(경향)이 저장돼야 하기 때문에, 이걸 그냥 저장하는 건 여러모로
번거롭고 해서 구글 차트 API에서 쓰는 0~4095 사이 인코딩하는 방법으로 썼습니다.
(base64와 거의 같은 방법입니다.) 그래서, 저장은 바로 구글 차트 API URL에 쓰면 되는
형태가 돼서 다시 불러올 때 매우 빠르게 불러올 수 있긴 한데, 문제는 한 이름 안에
이름 앞자와 뒷자의 경향을 모두 보여줘야하기 때문에 둘의 그래프 크기를 제대로 조절해 주지
않으면 각 글자의 크기가 잘못 나온다는 점이었습니다.

그래서 결국 선택한 방법은 보여줄 때 앞자 뒷자 인코딩된 값을 다시 풀어서 큰 쪽의 스케일로
맞춘 다음에 다시 인코딩하는 -.,-; 약간 노가다성 방법을 썼습니다. 역시 이런 부분은
numpy의 array의 도움을 많이 받을 수 있었습니다.

확장코드 인코딩/디코딩 부분을 따로 떼서 쓸 일이 좀 있을 것 같아서..

통계치가 적은 이름의 성별 추정

역시 통계 샘플 크기가 작아서 주요 이름들을 빼고는 제대로 된 통계치를 낼 수 없어서
주요 이름들의 성별 경향으로 학습한 걸로 예측하는 부분이 필요했습니다.
이번에는 아예 사용된 적 없는 글자까지도 어떻게 좀 해 보려고
통계치에 전혀 의존하지 않고 그냥 자소별로 분해해서 이름만 피처로 사용하기로 했습니다.
그래서 보통 SVM
쓰는 것이 여러모로 대세이기는 하지만, 카테고리성(이산) 피처값에 매우 유리한
random forest을 썼습니다.
(물론 제가 수학을 워낙 못하는 것도 큰 요인으로;;;;)

Random forest는 아무래도 쓸 수 있는 구현이 적다는 게 큰 문제인데요.
파이썬에서 쓸 수 있는 orange를 쓰면 정말
좋겠지만, 아쉽게도 이 구현은 리그레션은 지원하지 않고요. Y.Y
R용 패키지인
party
randomForest
중에 선택해야하는데, party를 먼저 했으나 메모리 3기가를 먹더니 죽었고 (-_-)
randomForest는 안정적으로 대략 200메가 정도 먹고 그런대로 쓸 만한 결과를 줬습니다. ?

학습 기법 측면에서는 남자 샘플이 2배 정도 되기 때문에 편향 문제가 있어서 샘플링 조절을
좀 해야했는데요, 그냥 복잡한 것 쓰지 않고 대략 0.3 밑을 반 다운 샘플링하니까 전체적으로
분포가 윗쪽하고 아랫쪽이 그런대로 맞았습니다. 중성적인 이름이 수가 훨씬 적은 것도 또한
중성적 이름 쪽에서 오차를 많이 발생시킬 수 있는 요인이 될 수 있는데, 이쪽에서 오버샘플링을
하려고 하다가 “될 거 같으면 대충해도 돼야 하는거지” 하는 교수님 말씀이 귓가를 스치며
놀이인데 대충하자 하고 -ㅇ-;; 크흐; 그래서 결국 10-fold cross validation으로
평균 피어슨 연관성이 0.97 정도 나왔습니다. (만… 역시 사람 느낌하고 좀 다른
사례가 개별적으로는 제법 많이 발견되긴 하네요;)

페이지 내용 캐시

서비스를 공개한 다음 날 점심시간이 좀 지나고 나서는 접속이 폭주해서, 실시간 계산이 상당히
있었던 구현 특성상 앞으로 어떻게 될 지 참 고민이 있었는데요; 그래서 마침 전혀 필요없겠다
싶어서 꺼놨던 django의 캐시 프레임워크
살려서 해 봤습니다.
백엔드를 선택할 수 있는데, 역시 제일 잘 나가는 memcached를 썼습니다. 이거 소문대로 깔끔하고 잘 돌아가네요. ^_^;

Django는 다행히도 템플릿에서 일부만 특정 변수에 따라서 캐시하는 기능이 있어서
이름에 따라 바뀌는 부분, 성에 따라 바뀌는 부분을 따로 따로 캐시하도록 3조각으로
따로 캐시해서 생각보다 훨씬 간단하게 쉽게 캐시로 넣었고요, 지금은 CPU부하가 전보다
같은 요청에서 거의 1/10로 줄어들었습니다! 이히히.

다른 사소한 것들..

몇 분께서 물어보셨던 게 자료처리나 통계처리는 어떤 걸 썼느냐가 있는데, 특별히 쓴 것은 없구요, 파이썬 하나면 다 해결됩니다. -ㅇ-;
물론 numpy, matplotlib도 아주 큰 도움이 됐습니다.
collections.defaultdict를 전에는 그렇게 자주 쓰지는 않았는데, 이번에 좀 과격하게
3~4 단계 쑥쑥 defaultdict를 겹쳐서도 써 봤더니 pickle이 잘 안 되는 문제만 빼고는, 코드를 아주 많이 줄여준다는 점에서
아주 사랑스러웠습니다.

후속편으로는 이번에 들어온 로그를 한 번 분석해 보려고 하고 있습니다. ^^;Watch Full Movie Online Streaming Online and Download

내 이름 어때? — 한국인의 이름 2탄!

전에 올렸던 한국인의 이름 통계를 많은 분들이 관심있게 봐 주셔서,
본인 이름은 얼마나 많은가요, 얼마나 중성적인가요 같은 질문을 많이 받았습니다.
그래서 직접 확인하실 수 있게 통계에서 나온 여러 자료들을 모아서 한 페이지에
보이도록 서비스를 만들어 봤습니다.

내 이름 어때!

대부분은 이전 글에서 소개해 드렸던 내용이고요, 이번에 추가된 부분은 통계에서
자료가 충분하지 않을 때 자동으로 추정하는 것과 이름이나 글자가 시대가 바뀌면서
어떤 빈도 변화가 있는지 그래프로 나타내는 부분입니다.

자동 성별 추정 부분은 통계 수치없이도 단순하게 바로 이름에서 예측할 수 있게
하기 위해 피처는 그냥 이름을 자소로 쪼갰고, random forest를 사용했습니다.
(옵션은 리그레션, 500그루, mtry=3, R randomForest 패키지 사용)
10배 교차검정에서 피어슨 연관성이 0.97이 나와서 대략 결과는 좋긴 한데, 실제로 보다 보면
얼토당토않은 결과가 심심찮게 나옵니다;; 나중에 제대로 쓰려면 글자 단위 통계도 피처로
좀 추가해야할 것 같네요.

그리고, 역시 이름도 시대별 흐름이 있는데요. 예를 들어 미자, 혜자, 경자 같이 -자로
끝나는 이름은 60년대생까지 매우 흔한 여자 이름이었지만 70년대부터 급속히 사라지는데
그래프로 직접 이런 경향을 확인할 수 있도록 했습니다. 데이터셋이 그렇게 크지 않기 때문에
그냥 생데이터를 쓰지는 못하고, 9년 단위 슬라이딩 윈도우 평균으로 했기 때문에 갑자기
튀는 최고점 같은 것은 좀 무시되었습니다. (이 분석을 위해 “생년”만 추가로 데이터를 받아서 보충했습니다.)

자 그럼 본인 이름을 넣어보세요~ —-> 내 이름 어때! <—-

채팅할 때 많이 쓰는 한글

갑자기 궁금해서 한 번 조사해 봤습니다. ;; 채팅할 때 주로
쓰는 글자는 몇 개나 되고 전혀 쓰이지 않는 KS X 1001 완성형
글자도 있을까!

그래서 대상은 2004년 12월 27일부터 오늘까지 HanIRC의 #perky, #tokigun 등 제가 들어갔던 채널들의
채팅 로그를 가지고 분석해 봤습니다. 분석 대상 한글 글자 수는 모두 54,723,296 글자였습니다. (많이도 떠들었다;;)
가장 많이 쓰이는 글자 20개는 다음과 같이 나왔군요.

~는 ~군요. ~이 ~고.. 역시 조사가 압도적이네요. “하”나 “아”는 조사가 아닌데도 명사나 기타 다른 곳에서 많이 쓰인 모양입니다.
저걸로 뭔가 문장을 만들 수도 있을 것 같았는데 해 봐도 잘 안 돼서 일단 ;;

반면에 한 번도 안 쓰인 KS X 1001 완성형 글자들도 몇 개 있었는데 다음과 같습니다.

흽횝혤퓜푭폘틥틜튱튁툿턺쵭쵬촁쳰쬈쫬쫠쩽쥣줆죌좼졺욀얩씐쐽쐼쐴썲쇘쇔쇌솖섕섐섈섄뺙빎붊묑묍묄묀룅뢨롑띳띕뙨똴덖늚뇝뇜뇔꾈꾄괩괆

저 글자들을 활용해서 아이디를 만들면 아이디 겹칠 일은 없겠네요~ \o/

그럼 확장완성형 중에 무슨 글자가 많이 쓰였을까 생각해 보면, “뷁”, “횽” 같은 게 압도적으로 앞에 나올 것 같은데요~

대충 경향을 보면 닉네임을 줄여서 부르는 것(☆)이 4개, 독립적인 인터넷 언어(◎)가 9개, 오타(◆)가 7개로, 생각보다 닉네임 줄여서 부르는 것의 비율도 꽤 되고, 오타도 다양하군요~

그래서, 과연 자주 쓰는 글자들이 얼마나 비중을 차지하는지 살펴보면

위의 파란 곡선은 완성형, 빨간 곡선은 확장완성형 글자이고, 세로축은 비중이 많은 순서로 정렬한 누적 글자수 입니다. 파란 곡선에 비해 빨간게 훨씬 가파른게, 확장완성형에만 있는 글자들이 일부에 대한 편중이 심하다는 걸 볼 수 있고요, 당연히 KS X 1001 완성형 글자들이 편중이 좀 덜 되어 있는게 영 발로 만든 건 아니구나 뻔한 사실을 한 번 확인해 봅니다 –;

몇 글자만 있으면 90%를 쓸 수 있을까도 보통 많이 하는 조사인데요, 완성형은 90%까지 351자(최~복 사이), 95%까지 511자(효~착 사이), 99%까지 903자(깜~벼 사이) 입니다. 아무래도 자주 쓰이는 글자를 뽑아놓은 문자셋이라서 생각보다 골고루 쓰이고 있네요.

혹시나 이 자료를 어디에 쓰실 분이 있을까봐 조사 결과를 공개합니다. –;;;;; (KS X 1001 완성형, 확장완성형 확장한글)

과학저널 레몬펜으로 같이 읽기

돌아다니다가 레몬펜이라는 서비스가 있길래 보고 호오 신기하다 생각하던 중, 저널 사이트에 붙여놓고 온라인 저널클럽 하는 것 비슷하게도 되지 않을까 생각나서, 한 번 그리스몽키 스크립트를 만들어 봤습니다. 같이 읽으면서 메모도 쓰고 재미있을 것 같아서~

설치하시려면 그리스몽키를 먼저 설치하신 다음에 >>여기<<를 클릭하세요~

등록해 놓은 사이트는 다음과 같습니다.

  • Nature와 NPG 발행 저널 전체
  • Science
  • Cell, Structure, Molecular Cell
  • Elsevier (Science Direct) 발행 저널 전체
  • Bioinformatics, Protein Engineering, Nucleic Acids Research
  • PLoS Biology, PLoS Computational Biology, PLoS Genetics, PLoS Medicine
  • BMC 발행 저널 중 자체 도메인 쓰는 것 빼고 전체
  • Genome Research, RNA, Genes & Development
  • JBC, JMB, Proteins
  • PNAS

Watch Full Movie The Shack (2017)

The Shack (2017) Full Movie Online Watch Free , English Subtitles Full HD, Free Movies Streaming , Free Latest Films.


Quality : HD
Title : The Shack.
Director : Stuart Hazeldine
Release : March 03, 2017
Language : en.
Runtime : 132 min
Genre : Drama, Fantasy.

Synopsis :
‘The Shack’ is a movie genre Drama, Fantasy, was released in March 03, 2017. Stuart Hazeldine was directed this movie and starring by Sam Worthington. This movie tell story about After suffering a family tragedy, Mack Phillips spirals into a deep depression causing him to question his innermost beliefs. Facing a crisis of faith, he receives a mysterious letter urging him to an abandoned shack deep in the Oregon wilderness. Despite his doubts, Mack journeys to the shack and encounters an enigmatic trio of strangers led by a woman named Papa. Through this meeting, Mack finds important truths that will transform his understanding of his tragedy and change his life forever.

Watch Full Movie The Shack (2017)

So..do not miss to Watch The Shack Online for free with your family. only 2 step you can Watch or download this movie with high quality video. Come and join us! because very much movie can you watch free streaming.

Incoming search term :

The Shack Full Episodes Online
The Shack English Full Episode Online
Watch The Shack Online Indiewire
Watch The Shack Online Hitfix
The Shack English Full Episodes Free Download
The Shack HD English Full Episodes Download
The Shack Free Download
Watch The Shack Online Putlocker
The Shack Full Episodes Watch Online
The Shack Free Online
The Shack HD Full Episodes Online
The Shack English Full Episodes Online Free Download
The Shack Full Episode
Watch The Shack Online Free Putlocker
The Shack Episodes Watch Online
Watch The Shack Online HDQ
UltraHD Watch Stream Online The Shack
Watch The Shack Online HD1080px
Watch The Shack Online Mediafire
The Shack For Free Online
The Shack English Episode
The Shack Watch Online
Watch The Shack Online Latinpost
Watch The Shack Online Collider
Watch The Shack Online Free Viooz
Watch The Shack Online Free putlocker
The Shack Episodes Online
Watch The Shack Online Boxofficemojo
The Shack English Episodes Free Watch Online
The Shack English Episodes