오늘의 단어

Google 개인화 홈이나 애플 대시보드 위젯같은 곳에 보면 "Word of the Day"라고 매일 하나씩 (외국인이 보기에는) 잘 안 쓰는 영어 단어를 보여주는 부분이 있습니다. 요새 한국어로 글을 쓰다보면 너무 매일 쓰는 말만 쓰고, 이미 있는 새로운 단어나 좀처럼 써본 적이 없는 단어를 새로 쓴 경험이 별로 없는 것 같아서, 국어 단어 아무거나 보여주는 서비스가 없나 한참 찾아봤는데, 잘 안 보이더군요. 으흐~

그래서 마침 국립국어원에서 표준국어대사전 표제어 목록을 공개했던 것이 생각나서, 이걸 RSS로 한 번 만들어 봤습니다. 그냥 아무거나 뽑는거라 보통 사람들은 못 알아들을 말도 나오고, 늘상 쓰는 말도 나오고 해서 1개로는 별로 건질 게 없을 것 같아서 5개로 늘렸습니다. 종종 "아!" 하는 까먹고 있었던 언젠가 본 단어도 나오는 것 같네요. :)

참, 단어의 뜻을 설명한 부분은 표준국어대사전의 검색 결과에서 무단으로 추출한 것이라 저작권 문제가 있습니다. 되도록이면 짧고 아주 간단하게 보여주고 있긴 하지만 여러모로 다른 곳에 재활용하시는 것은 좀 위험하고 개인적으로만 몰래 쓰세요. -ㅇ-;

혹시 관심있는 분들을 위해 표제어 부분을 설명드리자면, 표제어 목록은 Microsoft Access 데이터베이스인 mdb포맷으로 올라와 있는데, 윈도우에서 pywin32를 이용해서 ODBC로 데이터를 뽑아왔습니다. mdbtools라는 플랫폼 독립적 툴도 있긴 하지만, 국제화가 제대로 안 돼 있어서 테이블 이름이 한글인 것은 못 뽑아오더군요. --;; 뽑아온 표제어에는 원어, 6개 사전 각각의 수록여부, 합성어 구분, 장음표시 등 여러가지 정보가 들어있습니다. 그런데 자료실에 설명되어 있는 대로, 진짜로 깨진 글자가 많아서 대략 80만 정도 되는 표제어 중 9000개 정도가 깨져서 그냥 싹 버렸습니다. 동음이의어는 검색에서 따로 따로 구분하기가 힘들어서 그냥 각각을 하나로 다 합쳐서, 최종적으로 나오는 데이터는 52만단어 정도 중의 5개 씩을 보여줍니다.

일단은 국립국어원에 한번 저작권과 관련해서 문의를 해 보려고 하는데, 아무래도 사전의 저작권을 두산동아와 같이 공유하고 있는 듯해서, 간단하게 해결은 안 될 것 같군요. 크흐;

댓글 4 개 | 트랙백 1 개 (보낼곳) | 태그 happyhacking


트랙백
2007-09-13 17-07
openlook 블로그를 보다가 iGoogle에 국립국어원의 표준국어 대사전에 나오는 우리말 단어의 뜻을 iGoogle의 Gadget으로 사용할 수 있도록 등록을 해 놓으셨다는 것을 알고, 바로 iGoogle로 달려가서 등록을 했습니다. 어떻게 RSS 형식으로 되어 있는 콘텐츠를 추가 할 수 있을까 보니, 오른쪽 상단의 "콘텐츠 추가"를 선택 하고나서 상단 검색창의 오른쪽에 있는 ""를 선택하면 URL 입력창이 나타나고, 이곳에 URL을 적어 놓으면..


댓글
Arboris  ▒
단어 옆에 있는 별들의 갯수를 활용하면 어떨까요?
2007-09-11 00:28
별은 주요 국어사전 6개중 수록된 사전의 수인데, 사실 이 분포를 보면 그다지 단어의 난이도하고는 상관없이 흩어져있고, 6개 모두 수록된 것과 6개 모두 수록 안 된 것이 상당부분을 차지하고 있어서 활용이 아직까지 보기에는 좀 애매합니다. ^^;
2007-09-11 00:49
달구지  ▒
우리말을 위한 "Word of the Day"..
작지만 강한 아이디어에 감명받았습니다!
2007-09-13 11:30
태훈  ▒
감탄스럽네요. 역시 재밌는 생각을 많이 하시는군요. ^^
2007-09-13 17:07

글이 올라온 지 30일이 지나 새 댓글은 쓸 수 없습니다.

누구?

장혜식 (Hye-Shik Chang)
내일을 사랑하는 소년(!)

me2