오늘의 단어

Google 개인화 홈이나 애플 대시보드 위젯같은 곳에 보면 “Word of the Day”라고 매일 하나씩 (외국인이 보기에는) 잘 안 쓰는 영어 단어를 보여주는 부분이 있습니다. 요새 한국어로 글을 쓰다보면 너무 매일 쓰는 말만 쓰고, 이미 있는 새로운 단어나 좀처럼 써본 적이 없는 단어를 새로 쓴 경험이 별로 없는 것 같아서, 국어 단어 아무거나 보여주는 서비스가 없나 한참 찾아봤는데, 잘 안 보이더군요. 으흐~

그래서 마침 국립국어원에서 표준국어대사전 표제어 목록을 공개했던 것이 생각나서, 이걸 RSS로 한 번 만들어 봤습니다. 그냥 아무거나 뽑는거라 보통 사람들은 못 알아들을 말도 나오고, 늘상 쓰는 말도 나오고 해서 1개로는 별로 건질 게 없을 것 같아서 5개로 늘렸습니다. 종종 “아!” 하는 까먹고 있었던 언젠가 본 단어도 나오는 것 같네요. 🙂

참, 단어의 뜻을 설명한 부분은 표준국어대사전의 검색 결과에서 무단으로 추출한 것이라 저작권 문제가 있습니다. 되도록이면 짧고 아주 간단하게 보여주고 있긴 하지만 여러모로 다른 곳에 재활용하시는 것은 좀 위험하고 개인적으로만 몰래 쓰세요. -ㅇ-;

혹시 관심있는 분들을 위해 표제어 부분을 설명드리자면, 표제어 목록은 Microsoft Access 데이터베이스인 mdb포맷으로 올라와 있는데, 윈도우에서 pywin32를 이용해서 ODBC로 데이터를 뽑아왔습니다. mdbtools라는 플랫폼 독립적 툴도 있긴 하지만, 국제화가 제대로 안 돼 있어서 테이블 이름이 한글인 것은 못 뽑아오더군요. –;;
뽑아온 표제어에는 원어, 6개 사전 각각의 수록여부, 합성어 구분, 장음표시 등 여러가지 정보가 들어있습니다. 그런데 자료실에 설명되어 있는 대로, 진짜로 깨진 글자가 많아서 대략 80만 정도 되는 표제어 중 9000개 정도가 깨져서 그냥 싹 버렸습니다.
동음이의어는 검색에서 따로 따로 구분하기가 힘들어서 그냥 각각을 하나로 다 합쳐서, 최종적으로 나오는 데이터는 52만단어 정도 중의 5개 씩을 보여줍니다.

일단은 국립국어원에 한번 저작권과 관련해서 문의를 해 보려고 하는데, 아무래도 사전의 저작권을 두산동아와 같이 공유하고 있는 듯해서, 간단하게 해결은 안 될 것 같군요. 크흐;

5 thoughts on “오늘의 단어”

  1. 별은 주요 국어사전 6개중 수록된 사전의 수인데, 사실 이 분포를 보면 그다지 단어의 난이도하고는 상관없이 흩어져있고, 6개 모두 수록된 것과 6개 모두 수록 안 된 것이 상당부분을 차지하고 있어서 활용이 아직까지 보기에는 좀 애매합니다. ^^;

Comments are closed.