Вычеркнуть метку порядка байтов из строки в C#
Я читал похожие сообщения об этом, но они не отвечают на мой вопрос.
В C# у меня есть строка, которую я получаю из WebClient.DownloadString. Я пробовал установить client.Encoding на new UTF8Encoding(false), но это ничего не изменило - я по-прежнему получаю метку порядка байт для UTF-8 в начале строки результата. Мне нужно удалить это (чтобы разобрать полученный XML с помощью LINQ), и я хочу сделать это в памяти.
Итак, у меня есть строка, которая начинается с \x00EF\x00BB\x00BF, и я хочу удалить ее, если она существует. Сейчас я использую
if (xml.StartsWith(ByteOrderMarkUtf8))
{
xml = xml.Remove(0, ByteOrderMarkUtf8.Length);
}
но это кажется неправильным. Я пробовал всевозможные варианты кода с потоками, GetBytes и кодировками, но ничего не работает. Может ли кто-нибудь предоставить "правильный" алгоритм для удаления BOM из строки?
Спасибо!
Недавно у меня были проблемы со .чистая 4 обновления, но до сих пор однозначного ответа
Строку.Отделка()`
удаляет Бом До .net 3.5 с Однако в .сеть 4, вам нужно немного изменить его
Это также позволит избавиться от метки порядка байтов, хотя вы можете также хотеть удалить нулевой ширины пространства от U+200В
Это можно также использовать для удаления других нежелательных персонажей
Немного дополнительной информации от http://msdn.microsoft.com/en-us/library/t97s7bs3.aspx
У меня были некорректные тестовые данные, что привело меня в замешательство. Основываясь на Как избежать спотыкания о UTF-8 BOM при чтении файлов, я обнаружил, что это работает:
Установка свойства клиента Encoding правильно уменьшает BOM до одного символа. Однако XDocument.Parse по-прежнему не читает эту строку. Это самая чистая версия, которую я придумал на сегодняшний день.
Это работает, как хорошо
Если переменная xml имеет тип string, то вы уже сделали что-то не так - в символьной строке BOM должен быть представлен не как три отдельных символа, а как одна кодовая точка. Вместо использования DownloadString, используйте DownloadData, а вместо нее разбирайте массивы байтов. Парсер XML должен сам распознать BOM и пропустить его (за исключением автоматического определения кодировки документа как UTF-8).
Быстрый и простой способ, чтобы удалить его directyl из строки:
Как использовать:
У меня была очень похожая проблема (мне нужно для разбора XML-документа представляется в виде байтового массива, который имел метку порядка следования байтов в начале его). Я использовал один из Мартин'ы замечания по его ответу прийти к решению. Я взял массив байтов у меня (вместо преобразования его в строку) и созданный объект
потоке MemoryStream
с ним. Затем я передалXDocument используется.Нагрузки, который работал как шарм. Например, пусть'ы сказать, что
xmlBytes` содержит ваш XML в utf8 кодировке с байт-метка в начале его. Тогда это будет код, чтобы решить проблему:Это's, что простой.
Если начинаете со строкой, оно все равно должно быть легко сделать (допустим данных " XML " - это ваша строка, содержащая XML с метки порядка байтов):
Я написал следующее сообщение после прихода на этот вопрос.
По сути, вместо того, чтобы читать в необработанные байты файл'ы содержание с помощью класса BinaryReader, я использую streamreader класс с специальный конструктор, который автоматически удаляет метки порядка байтов персонаж из текстовых данных, я пытаюсь получить.
Передайте байтовый буфер (через DownloadData) в
string Encoding.UTF8.GetString(byte[])
, чтобы получить строку, а не загружать буфер КАК строку. Вероятно, у вас больше проблем с вашим текущим методом, чем просто обрезка знака порядка байтов. Если вы не декодируете его правильно, как я предлагаю здесь, символы Юникода, вероятно, будут неправильно интерпретированы, что приведет к повреждению строки.Редактирование: Ответ Martin'а лучше, поскольку он позволяет избежать выделения целой строки для XML, который все равно нужно разбирать. Ответ, который я дал, лучше всего подходит для общих строк, которые не нужно разбирать как XML.
Я столкнулся с этим, когда я был в base-64 шифрованный файл для преобразования в строку. В то время как я мог бы спасти его в файл и затем прочитать его правильно, здесь's лучшее решение я могу думать, чтобы получить от
Байт[]
файл в строку (опираясь слегка на TrueWill'ы ответ):Где как startswith(байт[])` является логическим продолжением:
Это's, конечно, лучше, если вы можете снять ее, пока еще на уровне байтовый массив, чтобы избежать нежелательных подстрок / allocs. Но если у вас уже есть строка, это, пожалуй, самый простой и наиболее эффективный способ справиться с этим.
Использование:
Еще один универсальный вариант, чтобы избавиться от UTF-8 Бом преамбуле:
Я решил проблему с помощью следующего кода