인코딩을 모르는 문서 디코드하기
- 2006년 5월 31일 23시 09분
- 댓글 6 개
피드를 읽다가 BeautifulSoup 새 버전이 나왔다는 소식을 듣고, 뭐가 바뀌었는지 궁금해서 홈페이지를 가 봤습니다. 그런데, 전에 없던 cjkcodecs, iconvcodec에 대한 링크가 갑자기 생긴 것입니다. 오잉 BeautifulSoup에서 웬 cjkcodecs 링크람~ 하고 자세히 봤더니 옆에 chardet라는 인코딩을 자동으로 결정해 주는 라이브러리가 붙어있는 것입니다!
호오.. BeautifulSoup은 지금까지 취해왔던 "개떡같이 쓴 것도 찰떡같이 알아듣는다"를 충실히 지키기 위해, 이제 인코딩이 언급되어 있지 않은 문서도 마구 디코딩을 해 줄 장정인가봅니다;;
Mark Pilgrim이 만든 chardet는 작년 8월에 나온 것인데, 노가다로 일일이 디코딩해보고 결정하는 것이 아니라, 각 인코딩 별로 보통의 빈도에 대한 통계 자료를 기반으로 해서 결정한다고 합니다. 나온지는 제법 오래된 것인데, 참 신기하고 재미있네요. 이제 트랙백 받는 것도 chardet 붙여서 똑똑하게 받아 봐야겠습니다. ^.^; (통계자료는 모질라 안에 들어있는 것을 포팅한 것이라고 합니다.)
