UnicodeDecodeError: 'utf8' codec can't decode byte 0xa5 in position 0: invalid start byte

Я использую Python-2.6 CGI скрипты, но обнаружил эту ошибку в журнале сервера при выполнении json.dumps(),

Traceback (most recent call last):
  File "/etc/mongodb/server/cgi-bin/getstats.py", line 135, in <module>
    print json.dumps(​​__get​data())
  File "/usr/lib/python2.7/json/__init__.py", line 231, in dumps
    return _default_encoder.encode(obj)
  File "/usr/lib/python2.7/json/encoder.py", line 201, in encode
    chunks = self.iterencode(o, _one_shot=True)
  File "/usr/lib/python2.7/json/encoder.py", line 264, in iterencode
    return _iterencode(o, 0)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xa5 in position 0: invalid start byte

Вот

функция __getdata() возвращает словарь {}.

Перед размещением этого вопроса я обратился к this вопросу os SO.


ОБНОВЛЕНИЯ

Следующая строка повреждает кодировщик JSON,

now = datetime.datetime.now()
now = datetime.datetime.strftime(now, '%Y-%m-%dT%H:%M:%S.%fZ')
print json.dumps({'current_time': now}) // this is the culprit

Я нашел временное решение этой проблемы

print json.dumps( {'old_time': now.encode('ISO-8859-1').strip() })

Но я не уверен, что это правильный способ сделать это.

Комментарии к вопросу (7)

Попробуйте ниже фрагменте кода:

with open(path, 'rb') as f:
  text = f.read()
Комментарии (1)
Решение

Ошибка возникает из-за того, что в словаре есть какой-то неаскиий символ, и он не может быть закодирован/декодирован. Один простой способ избежать этой ошибки - кодировать такие строки с помощью функции encode() следующим образом (если a - строка с неасксичным символом):

a.encode('utf-8').strip()
Комментарии (2)

Я включил это, просто определив другой пакет кодеков в команде read_csv ():

encoding = 'unicode_escape'
Комментарии (0)

Ваша строка имеет номера символов ASCII, закодированных в нем.

Не будучи в состоянии декодировать в UTF-8 может произойти, если вы'вэ нужно использовать другие кодировки в коде. Например:

>>> 'my weird character \x96'.decode('utf-8')
Traceback (most recent call last):
  File "", line 1, in 
  File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x96 in position 19: invalid start byte

В этом случае, кодировка Windows-1252, которая так вам нужно сделать:

>>> 'my weird character \x96'.decode('windows-1252')
u'my weird character \u2013'

Теперь у вас есть Юникод, можно смело кодировать в UTF-8.

Комментарии (0)

На читать CSV-я добавил метод кодирования:

import pandas as pd
dataset = pd.read_csv('sample_data.csv',header=0,encoding = 'unicode_escape')
Комментарии (0)

Установите кодировщик по умолчанию в верхней части вашего кода

import sys
reload(sys)
sys.setdefaultencoding("ISO-8859-1")
Комментарии (0)

Вдохновленный aaronpenne и Soumyaansh

f    = open("file.txt","rb")
text = f.read().decode(errors='replace')
Комментарии (2)

По состоянию на 2018-05 этого осуществляется непосредственно с расшифровать, по крайней мере для Python 3.

Я'м с помощью указанных ниже фрагмент кода после того, неверный старт байт и ошибки неверный продолжение байттип. Добавление ошибки='игнор'` Мне все это.

with open(out_file, 'rb') as f:
    for line in f:
        print(line.decode(errors='ignore'))
Комментарии (0)

Следующая строка - это кодировка JSON,

now = datetime.datetime.now()
now = datetime.datetime.strftime(now, '%Y-%m-%dT%H:%M:%S.%fZ')
print json.dumps({'current_time': now}) // this is the culprit

Я нашел временное решение этой проблемы

print json.dumps( {'old_time': now.encode('ISO-8859-1').strip() })

Пометить это как правильное временное исправление (Не уверен в этом).

Комментарии (0)

Если вышеуказанные методы не работает для вас, вы можете захотеть взглянуть на изменения кодировки файла CSV сам файл.

С Помощью Excel:

  1. Откройте файл CSV с помощью Excel
  2. Перейдите к "в меню "Файл" фильм" вариант, и нажмите "Сохранить как"
  3. Нажмите "Обзор", чтобы выбрать место для сохранения файла
  4. Введите предназначены именем
  5. Выберите CSV (разделители-запятые) (*.параметр CSV)
  6. Нажмите "инструментов" выпадающем окне и нажмите "Интернете"и
  7. Под "в разделе кодированием" и выберите пункт Юникод (UTF-8) от "Сохраните этот документ как" выпадающий список
  8. Сохраните файл

С Помощью Блокнота:

  1. Откройте файл CSV с помощью блокнота
  2. Перейдите, чтобы "файл" > и"Сохранить как" вариант
  3. Далее выбираем место для файла
  4. Выберите параметр Сохранить как тип, как все файлы(.)
  5. Укажите имя файла .расширением CSV
  6. От "кодирования" в раскрывающемся списке выберите пункт кодировка UTF-8.
  7. Нажмите кнопку СОХРАНИТЬ, чтобы сохранить файл

Делая это, вы должны быть в состоянии импортировать CSV-файлы, не сталкиваясь с UnicodeCodeError.

Комментарии (0)

После попытки все вышеупомянутые методы обхода, если он по-прежнему выдает ту же ошибку, вы можете попробовать экспортировать в файл в формате CSV (второй раз если у вас уже есть). Особенно, если вы're, используя пакет scikit узнать, что лучше для импорта данных в формате CSV.

Я провел часы вместе, а решение было таким простым. Экспортировать файл как CSV в каталог, где установлен Анаконда или классификатором инструменты и попробовать.

Комментарии (0)

Вы можете использовать любой стандарт кодирования от специфики использования и ввод.

"в кодировке UTF-8" это по умолчанию.

и"и quot кодировка iso8859-1&; также популярна в Западной Европе.

например: bytes_obj.расшифруйте(&#39;кодировка iso8859-1&#39;)

см.: https://docs.python.org/3/library/codecs.html#standard-encodings

Комментарии (0)