UnicodeDecodeError: 'utf8' codec dapat't decode byte 0xa5 di posisi 0: tidak valid mulai byte

Question

Lebih

Sumber Tidak AMP-versi Sunting

UnicodeDecodeError: 'utf8' codec dapat't decode byte 0xa5 di posisi 0: tidak valid mulai byte

Saya menggunakan Python-2.6 CGI script ini error di log server saat melakukan json.kesedihan(),

Traceback (most recent call last):
  File "/etc/mongodb/server/cgi-bin/getstats.py", line 135, in <module>
    print json.dumps(__getdata())
  File "/usr/lib/python2.7/json/__init__.py", line 231, in dumps
    return _default_encoder.encode(obj)
  File "/usr/lib/python2.7/json/encoder.py", line 201, in encode
    chunks = self.iterencode(o, _one_shot=True)
  File "/usr/lib/python2.7/json/encoder.py", line 264, in iterencode
    return _iterencode(o, 0)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xa5 in position 0: invalid start byte

Di sini ,

__getdata() kembali fungsi kamus {} .

Sebelum posting pertanyaan ini saya telah dirujuk ini pertanyaan os JADI.

UPDATE

Baris berikut adalah menyakiti JSON encoder,

now = datetime.datetime.now()
now = datetime.datetime.strftime(now, '%Y-%m-%dT%H:%M:%S.%fZ')
print json.dumps({'current_time': now}) // this is the culprit

Aku memperbaiki sementara untuk itu

print json.dumps( {'old_time': now.encode('ISO-8859-1').strip() })

Tapi saya tidak yakin apakah itu cara yang benar untuk melakukannya.

Community

Pertanyaan edit 23 Mei 2017 в 12:34

Pemrograman

python json

6 Maret 2014 в 5:47

51 tayangan

Mengomentari pertanyaan (7)

Coral

Sumber Tidak AMP-versi Sunting

Coba kode di bawah ini cuplikan:

with open(path, 'rb') as f:
  text = f.read()

Felipe Augusto

Jawaban edit 10 Juni 2019 в 4:01

85

0

Komentar (1)

MSalty

Sumber Tidak AMP-versi Sunting

Saya beralih ini hanya dengan mendefinisikan berbagai paket codec di read_csv() perintah:

encoding = 'unicode_escape'

Felipe Augusto

Jawaban edit 10 Juni 2019 в 4:00

64

0

Komentar (0)

JCF

Sumber Tidak AMP-versi Sunting

String anda memiliki non-ascii karakter dikodekan di dalamnya.

Tidak mampu untuk men-decode dengan utf-8 mungkin terjadi jika anda've diperlukan untuk menggunakan pengkodean lainnya dalam kode anda. Misalnya:

>>> 'my weird character \x96'.decode('utf-8')
Traceback (most recent call last):
  File "", line 1, in 
  File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x96 in position 19: invalid start byte

Dalam hal ini, encoding adalah windows-1252 jadi yang harus anda lakukan:

>>> 'my weird character \x96'.decode('windows-1252')
u'my weird character \u2013'

Sekarang bahwa anda memiliki unicode, anda dapat dengan aman encode ke utf-8.

32

0

Komentar (0)

Krishna prasad.m

Sumber Tidak AMP-versi Sunting

Baca csv saya menambahkan sebuah metode pengkodean:

import pandas as pd
dataset = pd.read_csv('sample_data.csv',header=0,encoding = 'unicode_escape')

Felipe Augusto

Jawaban edit 10 Juni 2019 в 4:00

25

0

Komentar (0)

HimalayanCoder

Sumber Tidak AMP-versi Sunting

Set default encoder di atas kode

import sys
reload(sys)
sys.setdefaultencoding("ISO-8859-1")

15

0

Komentar (0)

Punnerud

Sumber Tidak AMP-versi Sunting

Terinspirasi oleh aaronpenne dan Soumyaansh

f    = open("file.txt","rb")
text = f.read().decode(errors='replace')

Punnerud

Jawaban edit 15 Juli 2018 в 8:01

12

0

Komentar (2)

aaronpenne

Sumber Tidak AMP-versi Sunting

Sebagai 2018-05 ini ditangani langsung dengan decode, setidaknya untuk Python 3.

I'm menggunakan berikut cuplikan setelah mendapatkan tidak valid mulai byte dan tidak valid kelanjutan byte jenis kesalahan. Menambahkan kesalahan='mengabaikan' tetap untuk saya.

with open(out_file, 'rb') as f:
    for line in f:
        print(line.decode(errors='ignore'))

9

0

Komentar (0)

Dipak Ingole

Sumber Tidak AMP-versi Sunting

Baris berikut adalah menyakiti JSON encoder,

now = datetime.datetime.now()
now = datetime.datetime.strftime(now, '%Y-%m-%dT%H:%M:%S.%fZ')
print json.dumps({'current_time': now}) // this is the culprit

Aku memperbaiki sementara untuk itu

print json.dumps( {'old_time': now.encode('ISO-8859-1').strip() })

Menandai ini sebagai benar sebagai temporary fix (Tidak yakin).

6

0

Komentar (0)

Zuo

Sumber Tidak AMP-versi Sunting

Jika metode di atas tidak bekerja untuk anda, anda mungkin ingin melihat ke dalam mengubah encoding file csv itu sendiri.

Menggunakan Excel:

Buka file csv menggunakan Excel
Menavigasi ke "File menu" opsi dan klik "Simpan Sebagai"
Klik "Isi" pilih lokasi untuk menyimpan file
Masukkan dimaksudkan filename
Pilih CSV (Comma delimited) (*.csv) pilihan
Klik "Alat" kotak drop-down dan klik "Web Pilihan"
Di bawah "Encoding" tab, pilih opsi Unicode (UTF-8) dari "Simpan dokumen ini sebagai" daftar drop-down
Simpan file

Menggunakan Notepad:

Buka file csv menggunakan notepad
Menavigasi ke "File" > "Simpan Sebagai" pilihan
Berikutnya, pilih lokasi untuk file
Pilih Simpan sebagai jenis pilihan karena Semua File(.)
Tentukan nama file dengan .ekstensi csv
Dari "Encoding" daftar drop-down, pilih UTF-8 pilihan.
Klik Save untuk menyimpan file

Dengan melakukan ini, anda harus mampu mengimpor file csv tanpa menghadapi UnicodeCodeError.

eyllanesc

Jawaban edit 2 Juni 2019 в 5:47

4

0

Komentar (0)

Sushmita

Sumber Tidak AMP-versi Sunting

Setelah mencoba semua tersebut workarounds, jika masih melempar kesalahan yang sama, anda dapat mencoba mengekspor file CSV (untuk yang kedua kalinya jika anda sudah memiliki). Terutama jika anda're menggunakan scikit belajar, yang terbaik adalah untuk mengimpor data sebagai file CSV.

Aku menghabiskan berjam-jam bersama-sama, sedangkan larutan yang sederhana ini. Ekspor sebagai file CSV ke direktori di mana Anaconda atau anda classifier alat yang dipasang dan mencoba.

2

0

Komentar (0)

NoamG

Sumber Tidak AMP-versi Sunting

Anda dapat menggunakan standar pengkodean tertentu dan penggunaan input.

"utf-8" adalah default.

"iso8859-1" ini juga populer untuk Eropa Barat.

misalnya: bytes_obj.decode('iso8859-1')

lihat: https://docs.python.org/3/library/codecs.html#standard-encodings

0

Komentar (0)

Santosh Ghimire · Accepted Answer · 2014-03-06T06:28:53+00:00

Larutan

Santosh Ghimire

Sumber Tidak AMP-versi Sunting

Kesalahan ini karena ada beberapa karakter non-ascii di kamus dan dapat't akan dikodekan/diterjemahkan. Salah satu cara sederhana untuk menghindari kesalahan ini adalah untuk mengkodekan string tersebut dengan encode() fungsi sebagai berikut (jika a adalah string dengan karakter non-ascii):

a.encode('utf-8').strip()

Jean-Francois T.

Jawaban edit 3 Maret 2017 в 5:31

71

0

Komentar (2)