ueblogさんのエントリにコメントしようと思ったんだけど、コメントの機能があやしかったのでこっちにも書いておきます。
http://www.ueblog.org/blog/entry/python_nkf_zenhan/
ところが、Windowsにはローマ数字(Ⅱ)のような機種依存文字というのがあって、それが含まれていると
>>> s = "コンゲツ えおⅡ"
>>> unicode(s, "sjis")UnicodeDecodeError: 'shift_jis' codec can't decode bytes in position 8-9: illegal multibyte sequence
のようになってunicode文字列に変換できなくて困ってしまうことになります。
Windowsだとsjisではなくてcp932を使えば大丈夫です。
>>> s = "コンゲツ えおⅡ" >>> unicode(s, "cp932") u'\uff7a\uff9d\uff79\uff9e\uff82 \u3048\u304a\u2161' >>> print unicode(s, "cp932") コンゲツ えおⅡ