UnicodeDecodeError: 'utf8' codec can't decode byte 0xa5 in position 0: invalid start byte

Question

Дополнительно

Источник Неподдерживаемая версия AMP Редактировать

UnicodeDecodeError: 'utf8' codec can't decode byte 0xa5 in position 0: invalid start byte

Я использую Python-2.6 CGI скрипты, но обнаружил эту ошибку в журнале сервера при выполнении json.dumps(),

Traceback (most recent call last):
  File "/etc/mongodb/server/cgi-bin/getstats.py", line 135, in <module>
    print json.dumps(__getdata())
  File "/usr/lib/python2.7/json/__init__.py", line 231, in dumps
    return _default_encoder.encode(obj)
  File "/usr/lib/python2.7/json/encoder.py", line 201, in encode
    chunks = self.iterencode(o, _one_shot=True)
  File "/usr/lib/python2.7/json/encoder.py", line 264, in iterencode
    return _iterencode(o, 0)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xa5 in position 0: invalid start byte

Вот

функция __getdata() возвращает словарь {}.

Перед размещением этого вопроса я обратился к this вопросу os SO.

ОБНОВЛЕНИЯ

Следующая строка повреждает кодировщик JSON,

now = datetime.datetime.now()
now = datetime.datetime.strftime(now, '%Y-%m-%dT%H:%M:%S.%fZ')
print json.dumps({'current_time': now}) // this is the culprit

Я нашел временное решение этой проблемы

print json.dumps( {'old_time': now.encode('ISO-8859-1').strip() })

Но я не уверен, что это правильный способ сделать это.

Valeriu

56173

Редактировал вопрос 19-го февраля 2023 в 9:17

Community

Редактировал вопрос 23-го мая 2017 в 12:34

Программирование

python json

6-го марта 2014 в 5:47

60 просмотров

Комментарии к вопросу (7)

Coral

Источник Неподдерживаемая версия AMP Редактировать

Попробуйте ниже фрагменте кода:

with open(path, 'rb') as f:
  text = f.read()

Felipe Augusto

Редактировал ответ 10-го июня 2019 в 4:01

85

0

Комментарии (1)

MSalty

Источник Неподдерживаемая версия AMP Редактировать

Я включил это, просто определив другой пакет кодеков в команде read_csv ():

encoding = 'unicode_escape'

Felipe Augusto

Редактировал ответ 10-го июня 2019 в 4:00

64

0

Комментарии (0)

JCF

Источник Неподдерживаемая версия AMP Редактировать

Ваша строка имеет номера символов ASCII, закодированных в нем.

Не будучи в состоянии декодировать в UTF-8 может произойти, если вы'вэ нужно использовать другие кодировки в коде. Например:

>>> 'my weird character \x96'.decode('utf-8')
Traceback (most recent call last):
  File "", line 1, in 
  File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x96 in position 19: invalid start byte

В этом случае, кодировка Windows-1252, которая так вам нужно сделать:

>>> 'my weird character \x96'.decode('windows-1252')
u'my weird character \u2013'

Теперь у вас есть Юникод, можно смело кодировать в UTF-8.

32

0

Комментарии (0)

Krishna prasad.m

Источник Неподдерживаемая версия AMP Редактировать

На читать CSV-я добавил метод кодирования:

import pandas as pd
dataset = pd.read_csv('sample_data.csv',header=0,encoding = 'unicode_escape')

Felipe Augusto

Редактировал ответ 10-го июня 2019 в 4:00

25

0

Комментарии (0)

HimalayanCoder

Источник Неподдерживаемая версия AMP Редактировать

Установите кодировщик по умолчанию в верхней части вашего кода

import sys
reload(sys)
sys.setdefaultencoding("ISO-8859-1")

15

0

Комментарии (0)

Punnerud

Источник Неподдерживаемая версия AMP Редактировать

Вдохновленный aaronpenne и Soumyaansh

f    = open("file.txt","rb")
text = f.read().decode(errors='replace')

Punnerud

Редактировал ответ 15-го июля 2018 в 8:01

12

0

Комментарии (2)

aaronpenne

Источник Неподдерживаемая версия AMP Редактировать

По состоянию на 2018-05 этого осуществляется непосредственно с расшифровать, по крайней мере для Python 3.

Я'м с помощью указанных ниже фрагмент кода после того, неверный старт байт и ошибки неверный продолжение байттип. Добавление ошибки='игнор'` Мне все это.

with open(out_file, 'rb') as f:
    for line in f:
        print(line.decode(errors='ignore'))

9

0

Комментарии (0)

Dipak Ingole

Источник Неподдерживаемая версия AMP Редактировать

Следующая строка - это кодировка JSON,

now = datetime.datetime.now()
now = datetime.datetime.strftime(now, '%Y-%m-%dT%H:%M:%S.%fZ')
print json.dumps({'current_time': now}) // this is the culprit

Я нашел временное решение этой проблемы

print json.dumps( {'old_time': now.encode('ISO-8859-1').strip() })

Пометить это как правильное временное исправление (Не уверен в этом).

6

0

Комментарии (0)

Zuo

Источник Неподдерживаемая версия AMP Редактировать

Если вышеуказанные методы не работает для вас, вы можете захотеть взглянуть на изменения кодировки файла CSV сам файл.

С Помощью Excel:

Откройте файл CSV с помощью Excel
Перейдите к "в меню "Файл" фильм" вариант, и нажмите "Сохранить как"
Нажмите "Обзор", чтобы выбрать место для сохранения файла
Введите предназначены именем
Выберите CSV (разделители-запятые) (*.параметр CSV)
Нажмите "инструментов" выпадающем окне и нажмите "Интернете"и
Под "в разделе кодированием" и выберите пункт Юникод (UTF-8) от "Сохраните этот документ как" выпадающий список
Сохраните файл

С Помощью Блокнота:

Откройте файл CSV с помощью блокнота
Перейдите, чтобы "файл" > и"Сохранить как" вариант
Далее выбираем место для файла
Выберите параметр Сохранить как тип, как все файлы(.)
Укажите имя файла .расширением CSV
От "кодирования" в раскрывающемся списке выберите пункт кодировка UTF-8.
Нажмите кнопку СОХРАНИТЬ, чтобы сохранить файл

Делая это, вы должны быть в состоянии импортировать CSV-файлы, не сталкиваясь с UnicodeCodeError.

eyllanesc

Редактировал ответ 2-го июня 2019 в 5:47

4

0

Комментарии (0)

Sushmita

Источник Неподдерживаемая версия AMP Редактировать

После попытки все вышеупомянутые методы обхода, если он по-прежнему выдает ту же ошибку, вы можете попробовать экспортировать в файл в формате CSV (второй раз если у вас уже есть). Особенно, если вы're, используя пакет scikit узнать, что лучше для импорта данных в формате CSV.

Я провел часы вместе, а решение было таким простым. Экспортировать файл как CSV в каталог, где установлен Анаконда или классификатором инструменты и попробовать.

2

0

Комментарии (0)

NoamG

Источник Неподдерживаемая версия AMP Редактировать

Вы можете использовать любой стандарт кодирования от специфики использования и ввод.

"в кодировке UTF-8" это по умолчанию.

и"и quot кодировка iso8859-1&; также популярна в Западной Европе.

например: bytes_obj.расшифруйте('кодировка iso8859-1')

см.: https://docs.python.org/3/library/codecs.html#standard-encodings

0

Комментарии (0)

Santosh Ghimire · Accepted Answer · 2014-03-06T06:28:53+00:00

Решение

Santosh Ghimire

Источник Неподдерживаемая версия AMP Редактировать

Ошибка возникает из-за того, что в словаре есть какой-то неаскиий символ, и он не может быть закодирован/декодирован. Один простой способ избежать этой ошибки - кодировать такие строки с помощью функции encode() следующим образом (если a - строка с неасксичным символом):

a.encode('utf-8').strip()

Valeriu

56173

Редактировал ответ 19-го февраля 2023 в 9:17

71

0

Комментарии (2)