Дополнительно
UnicodeDecodeError: 'utf8' codec can't decode byte 0xa5 in position 0: invalid start byte
Я использую Python-2.6 CGI
скрипты, но обнаружил эту ошибку в журнале сервера при выполнении json.dumps()
,
Traceback (most recent call last):
File "/etc/mongodb/server/cgi-bin/getstats.py", line 135, in <module>
print json.dumps(__getdata())
File "/usr/lib/python2.7/json/__init__.py", line 231, in dumps
return _default_encoder.encode(obj)
File "/usr/lib/python2.7/json/encoder.py", line 201, in encode
chunks = self.iterencode(o, _one_shot=True)
File "/usr/lib/python2.7/json/encoder.py", line 264, in iterencode
return _iterencode(o, 0)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xa5 in position 0: invalid start byte
Вот
функция __getdata()
возвращает словарь {}
.
Перед размещением этого вопроса я обратился к this вопросу os SO.
ОБНОВЛЕНИЯ
Следующая строка повреждает кодировщик JSON,
now = datetime.datetime.now()
now = datetime.datetime.strftime(now, '%Y-%m-%dT%H:%M:%S.%fZ')
print json.dumps({'current_time': now}) // this is the culprit
Я нашел временное решение этой проблемы
print json.dumps( {'old_time': now.encode('ISO-8859-1').strip() })
Но я не уверен, что это правильный способ сделать это.
132
12
Попробуйте ниже фрагменте кода:
Ошибка возникает из-за того, что в словаре есть какой-то неаскиий символ, и он не может быть закодирован/декодирован. Один простой способ избежать этой ошибки - кодировать такие строки с помощью функции
encode()
следующим образом (еслиa
- строка с неасксичным символом):Я включил это, просто определив другой пакет кодеков в команде
read_csv ()
:Ваша строка имеет номера символов ASCII, закодированных в нем.
Не будучи в состоянии декодировать в UTF-8 может произойти, если вы'вэ нужно использовать другие кодировки в коде. Например:
В этом случае, кодировка Windows-1252, которая так вам нужно сделать:
Теперь у вас есть Юникод, можно смело кодировать в UTF-8.
На читать CSV-я добавил метод кодирования:
Установите кодировщик по умолчанию в верхней части вашего кода
Вдохновленный aaronpenne и Soumyaansh
По состоянию на 2018-05 этого осуществляется непосредственно с
расшифровать
, по крайней мере для Python 3.Я'м с помощью указанных ниже фрагмент кода после того,
неверный старт байт и ошибки неверный продолжение байт
тип. Добавление ошибки='игнор'` Мне все это.Следующая строка - это кодировка JSON,
Я нашел временное решение этой проблемы
Пометить это как правильное временное исправление (Не уверен в этом).
Если вышеуказанные методы не работает для вас, вы можете захотеть взглянуть на изменения кодировки файла CSV сам файл.
С Помощью Excel:
С Помощью Блокнота:
Делая это, вы должны быть в состоянии импортировать CSV-файлы, не сталкиваясь с UnicodeCodeError.
После попытки все вышеупомянутые методы обхода, если он по-прежнему выдает ту же ошибку, вы можете попробовать экспортировать в файл в формате CSV (второй раз если у вас уже есть). Особенно, если вы're, используя пакет scikit узнать, что лучше для импорта данных в формате CSV.
Я провел часы вместе, а решение было таким простым. Экспортировать файл как CSV в каталог, где установлен Анаконда или классификатором инструменты и попробовать.
Вы можете использовать любой стандарт кодирования от специфики использования и ввод.
"в кодировке UTF-8" это по умолчанию.
и"и quot кодировка iso8859-1&; также популярна в Западной Европе.
например:
bytes_obj.расшифруйте('кодировка iso8859-1')
см.: https://docs.python.org/3/library/codecs.html#standard-encodings