1 thought on “일본 잡지에 나온 CJKCodecs”

  1. 음… 링크된 URL을 따라가면 네이버의 번역기가 번역을 해주네요.
    번역 수준이 그리 좋지는 않은 것 같습니다.
    파란의 번역기가 번역한 것이 더 읽기 좋군요.

    다음은 파란의 번역입니다.

    ——— 인용 시작 ——–
    일본어 처리

    Python는, 버젼 1.6으로부터 Unicode 문자열을 취급할 수 있게 되어, 다언어 처리도 대충 실시할 수 있게 되어 있습니다.표준의 정규 표현 모듈등도, 이것에 맞추는 형태로 개발이 진행되어 왔습니다.

     Python에서는, Unicode 오브젝트와 아르바이트열로 표현된 문자열과의 사이의 변환을 Codecs로 불리는 모듈을 사용해 실시합니다.EUC-JP, 시프트 JIS, UTF-8등에서 쓰여진 일본어 문자열을 Unicode 오브젝트로 변환하려면 , 그것을 위한 Codecs 모듈이 필요합니다만, Python 2.3까지는, 이 일본어용 Codecs는 Python의 표준 라이브러리에 포함되어 있지 않았습니다.

     이 문제를 해결하기 위해서, 일본 Python 유저회(http://www.python.jp/Zope/)에 대하고, 카지야마민인씨가 개발한 일본어 Codecs가 배포되고 있습니다.입수는, 다음의 URL로부터 실시하면 좋을 것입니다.

    http://www.python.jp/Zope/JapaneseCodecs

     JapaneseCodecs는, Python 표준의 distutils라고 하는 모듈을 사용해 구성되어 있어 매우 간단하게 인스톨 할 수 있습니다.그러나, 역시 오리지날의 Python에 표준으로 포함되어 있는 것은 아니기 때문에, 렌탈 서버등에서 Python를 사용하고 싶은 경우 등에, 마음대로 확장 모듈을 인스톨 할 수 없는등의 제약에 걸려, 잘 되지 않는 경우도 있었습니다.

     Python 2.4에서는, Hye-Shik Chang씨가 작성한, 일중 한국어용 Codecs 「CJKCodecs」가 표준으로 짜넣어지고 있습니다.CJKCodecs는, cp932, euc-jis-2004, euc-jp, euc-jisx0213, iso-2022-jp, iso-2022-jp-1, iso-2022-jp-2, iso-2022-jp-3, iso-2022-jp-ext, iso-2022-jp-2004, shift-jis, shift-jisx0213, shift-jis-2004라고 하는 인코딩을 서포트하고 있어, 거의 필요한 기능은 갖추어져 있습니다.이것으로 일반적인 일본어 문자열의 처리에 대해서는 많이 진전했습니다.

     그렇지만, Codecs는 아르바이트열과 Unicode 문자열간의 상호 변환을 실시하는 것만으로, 인코딩의 추정등의 기능은 제공되고 있지 않습니다.이러한 기능이 필요한 경우는, 역시 비표준의 모듈을 이용하게 됩니다.이러한 기능을 가진 모듈로서는, 이시모토 아츠오씨가 개발·배포하고 있는 pykf등을 이용하면 좋을 것입니다.배포원URL는, 다음과 같습니다.

    http://www.gembook.jp/tsum/page.pys?wiki=PyKf

     그 시비는 차치하고, Python에서는, 향후 문자열은 Unicode화 되어 가는 경향이 있으므로, 지금 동안에 UTF-8으로 소스를 기술해 두는 등의 준비를 해 두는 편이 안전할지도 모릅니다.

    ——– 인용 끝 ———

    참..
    http://sunjoong.hanyang.ac.kr/
    에도 놀러와 주세요.

Comments are closed.