UnicodeDecodeError: 'utf-8' Codec kann Byte nicht dekodieren

Question

Mehr

Quelle Nicht AMP-Version Bearbeiten

UnicodeDecodeError: 'utf-8' Codec kann Byte nicht dekodieren

Hier ist mein Code,

for line in open('u.item'):
#read each line

Wenn ich diesen Code ausführe, wird folgende Fehlermeldung angezeigt:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 2892: invalid continuation byte

Ich habe versucht, dieses Problem zu lösen, indem ich einen zusätzlichen Parameter in open() einfügte. Der Code sieht wie folgt aus

for line in open('u.item', encoding='utf-8'):
#read each line

Aber wieder gibt es den gleichen Fehler. Was soll ich dann tun? Bitte helfen Sie mir.

desertnaut

Bearbeitete Frage 3. Juli 2019 в 10:02

Programmierung

character-encoding python python-3.x

31. Oktober 2013 в 5:55

16 Aufrufe

Mark Ransom

Quelle Nicht AMP-Version Bearbeiten

Ihre Datei enthält nicht wirklich utf-8 kodierte Daten, sondern eine andere Kodierung. Finden Sie heraus, welche Kodierung das ist, und verwenden Sie sie im open-Aufruf.

In der Windows-1252-Kodierung wäre 0xe9 zum Beispiel das Zeichen é.

29

0

Kommentare (2)

user6832484

Quelle Nicht AMP-Version Bearbeiten

Falls jemand danach sucht, hier ein Beispiel für die Konvertierung einer CSV-Datei in Python 3:

try:
    inputReader = csv.reader(open(argv[1], encoding='ISO-8859-1'), delimiter=',',quotechar='"')
except IOError:
    pass

user812786

Bearbeitete Antwort 14. September 2016 в 8:51

2

0

Kommentare (0)

SujitS · Accepted Answer · 2013-10-31T12:35:45+00:00

Lösung

SujitS

Quelle Nicht AMP-Version Bearbeiten

Wie von Mark Ransom vorgeschlagen, habe ich die richtige Kodierung für dieses Problem gefunden. Die Kodierung war "ISO-8859-1", so dass das Ersetzen von open("u.item", encoding="utf-8") durch open('u.item', encoding = "ISO-8859-1") das Problem lösen wird.

aryeh

Bearbeitete Antwort 7. Oktober 2015 в 3:19

354

0

Kommentare (6)