연속 바이트입니다 이니고데데코디로어, 잘못된

Question

원본 비 AMP 버전 편집

연속 바이트입니다 이니고데데코디로어, 잘못된

이 항목 아래에 있는 이유는? 그리고 왜 함께 &quot latin-1&quot, 성공할 수 없습니다. 코텍이?

o = "a test of \xe9 char" #I want this to remain a string as this is what I am receiving
v = o.decode("utf-8")

결과:

 Traceback (most recent call last):  
 File "<stdin>", line 1, in <module>  
 File "C:\Python27\lib\encodings\utf_8.py",
 line 16, in decode
     return codecs.utf_8_decode(input, errors, True) UnicodeDecodeError:
 'utf8' codec can't decode byte 0xe9 in position 10: invalid continuation byte

bgporter

편집된 질문5일 4월 2011 в 1:27

프로그래밍

python unicode decode

5일 4월 2011 в 1:23

9 파운드

Mazen Aly

원본 비 AMP 버전 편집

전 그 때 같은 오류가 csv 파일 열기 위해 노력했다고 read_csv 방법을 통해 판다.

39, & # 39 는 변경하십시오 솔루션, latin-1& 인코딩:

pd.read_csv('ml-100k/u.item', sep='|', names=m_cols , encoding='latin-1')

Brad Larson

편집된 답변8일 10월 2015 в 6:13

191

0

해설 (1)

Sami J. Lehtinen

원본 비 AMP 버전 편집

이는 잘못된 UTF-8. 그래서 성공할 수 있는 문자를 급성 ᅦ iso latin1 있는 문자 코드.

39, 이 경우, 수신 문장열 don& you& # 39 에서 코드 모르는 you& # 39, re in re 조금 복잡합니다. 이 경우 가장 좋을 단일 코드 (그러길 바래야지 UTF-8) / 어플리케이션마다 약간만이라도 사탄들 단축시킵니다 포로토콜 그리곤요 you& 그냥 # 39, t, d # 39 거역한자 있는 수준들과 didn& 디코딩합니다.

39, ll, 그렇게 할 경우 t # 39 can& you& 휴리스틱 합니다.

Sami J. Lehtinen

편집된 답변5일 4월 2011 в 1:35

58

0

해설 (1)

neurino

원본 비 AMP 버전 편집

Utf-8 은 때문에 멀티바이트 없다 '의' 에 해당하는 챨 조합으로의 \xe9 구성형 다음과 같은 공간.

- 모두 성공할 utf-8, latin-1 하는 이유는?

이 같은 마디였나 utf-8 어떻게 해야 합니다.

>>> o.decode('latin-1').encode("utf-8")
'a test of \xc3\xa9 char'

42

0

해설 (1)

Patrick Mutuku

원본 비 AMP 버전 편집

이 오류가 발생할 경우 파일 조작 여부를 확인할 때, 방금 & # 39, 그 문을 연 ',' 모드를 rb& # 39

7

0

해설 (0)

Alon Gouldman

원본 비 AMP 버전 편집

또한 이 날, 나는 이 포함된 텍스트를 읽는 동안 상태입니까 히브리어 '에서' .txt 파일.

난 것처럼. '파일 - &gt. 다른 이름으로 저장 '와' '내가 이 파일을 저장할 때 UTF-8 인코딩

1

0

해설 (0)

Martin Taco

원본 비 AMP 버전 편집

이 경우 어떤 활동 path/file.sql. .py 실행하십시오 찾았다

나의 해결책은 법전 편찬, UTF-8 로 수정하십시오 file.스크라 &quot BOM&quot 않고 있다. 및 작동하잖아!

노트패드++ 함께 할 수 있습니다.

내 코드를 일부를 내아기마저도 남겨두십시오.

Code *

콘 = psycopg2.connect (host = 시스콜라리프 [1], 포트 = 시스콜라리프 [2], dbname = 시스콜라리프 [3], [4], [5] 사용자 = 시스콜라리프 시스콜라리프 password =)

커서 = 콘스커소 () 스크루피레 = 오픈 (& # 39, 경로, r& # 39;)

-1

0

해설 (0)

Josh Lee · Accepted Answer · 2011-04-05T13:29:13+00:00

1110년 '1001년' 에서 바이너리인 0xE9 것처럼 보인다. [UTF-8 에서 위키백과] [1] 검토완료 경우, 그런 것을 알 수 있습니다 'xxxx' 의 2 가지 형태의 10xx 바이트입니다 따라야 합니다. 그러므로, 예를 들어:

>>> b'\xe9\x80\x80'.decode('utf-8')
u'\u9000'

하지만 그건 그냥 사고 원인은 기계적 예외가 아니다. 이러한 경우 그것은 거의 확실히 인코딩되지 문자열으로 라틴어로 1. Utf-8, 라틴 1 어떻게 다르게 볼 수 있습니다.

>>> u'\xe9'.encode('utf-8')
b'\xc3\xa9'
>>> u'\xe9'.encode('latin-1')
b'\xe9'

[1]: http://en.wikipedia.org/wiki/UTF-8 # 설계

(참고, I& # 39 m 혼합하여 사용하여, 파이썬 2 와 3 개 대표 삽입하십시오. 입력은 유효함 믿지아니하며 버전니다 파이썬, 무릎은 파이썬 인터프리터 모두 이런 방식으로 유니코드와 바이트입니다 문장열 실제로 볼 가능성은 거의 없다.)