Mengabaikan huruf beraksen pada perbandingan string

Question

Lebih

Sumber Tidak AMP-versi Sunting

Mengabaikan huruf beraksen pada perbandingan string

Saya perlu membandingkan 2 string di C# dan mengobati huruf beraksen yang sama sebagai non-huruf beraksen. Misalnya:

string s1 = "hello";
string s2 = "héllo";

s1.Equals(s2, StringComparison.InvariantCultureIgnoreCase);
s1.Equals(s2, StringComparison.OrdinalIgnoreCase);

Ini 2 string harus sama (sejauh yang saya aplikasi yang bersangkutan), namun kedua pernyataan ini mengevaluasi ke false. Apakah ada cara dalam C# untuk melakukan hal ini?

Pemrograman

c# string localization

11 Desember 2008 в 3:57

39 tayangan

knightpfhor

Sumber Tidak AMP-versi Sunting

Jika anda don't perlu mengkonversi string dan anda hanya ingin memeriksa kesetaraan dapat anda gunakan

string s1 = "hello";
string s2 = "héllo";

if (String.Compare(s1, s2, CultureInfo.CurrentCulture, CompareOptions.IgnoreNonSpace) == 0)
{
    // both strings are equal
}

atau jika anda ingin perbandingan untuk menjadi peka juga

string s1 = "HEllO";
string s2 = "héLLo";

if (String.Compare(s1, s2, CultureInfo.CurrentCulture, CompareOptions.IgnoreNonSpace | CompareOptions.IgnoreCase) == 0)
{
    // both strings are equal
}

knightpfhor

Jawaban edit 13 Januari 2015 в 8:24

126

0

Komentar (6)

Ryan Cook

Sumber Tidak AMP-versi Sunting

Berikut metode CompareIgnoreAccents(...) bekerja pada anda contoh data. Berikut ini adalah artikel mana saya mendapat informasi latar belakang: http://www.codeproject.com/KB/cs/EncodingAccents.aspx

private static bool CompareIgnoreAccents(string s1, string s2)
{
    return string.Compare(
        RemoveAccents(s1), RemoveAccents(s2), StringComparison.InvariantCultureIgnoreCase) == 0;
}

private static string RemoveAccents(string s)
{
    Encoding destEncoding = Encoding.GetEncoding("iso-8859-8");

    return destEncoding.GetString(
        Encoding.Convert(Encoding.UTF8, destEncoding, Encoding.UTF8.GetBytes(s)));
}

Saya pikir metode penyuluhan akan lebih baik:

public static string RemoveAccents(this string s)
{
    Encoding destEncoding = Encoding.GetEncoding("iso-8859-8");

    return destEncoding.GetString(
        Encoding.Convert(Encoding.UTF8, destEncoding, Encoding.UTF8.GetBytes(s)));
}

Kemudian gunakan akan menjadi seperti ini:

if(string.Compare(s1.RemoveAccents(), s2.RemoveAccents(), true) == 0) {
   ...

Ryan Cook

Jawaban edit 11 Desember 2008 в 5:06

5

0

Komentar (3)

Guish

Sumber Tidak AMP-versi Sunting

Aku harus melakukan sesuatu yang mirip, tetapi dengan StartsWith metode. Berikut adalah solusi sederhana yang berasal dari @Serge - appTranslator.

Berikut adalah metode penyuluhan:

    public static bool StartsWith(this string str, string value, CultureInfo culture, CompareOptions options)
    {
        if (str.Length >= value.Length)
            return string.Compare(str.Substring(0, value.Length), value, culture, options) == 0;
        else
            return false;            
    }

Dan untuk satu liners aneh ;)

    public static bool StartsWith(this string str, string value, CultureInfo culture, CompareOptions options)
    {
        return str.Length >= value.Length && string.Compare(str.Substring(0, value.Length), value, culture, options) == 0;
    }

Aksen incensitive dan kasus incensitive startsWith bisa disebut seperti ini

value.ToString().StartsWith(str, CultureInfo.InvariantCulture, CompareOptions.IgnoreNonSpace | CompareOptions.IgnoreCase)

3

0

Komentar (0)

Newton Carlos Dantas

Sumber Tidak AMP-versi Sunting

Cara yang lebih sederhana untuk menghilangkan aksen:

    Dim source As String = "áéíóúç"
    Dim result As String

    Dim bytes As Byte() = Encoding.GetEncoding("Cyrillic").GetBytes(source)
    result = Encoding.ASCII.GetString(bytes)

0

Komentar (0)

Sumber Tidak AMP-versi Sunting

coba ini overload pada String.Membandingkan Metode.

String.Membandingkan Metode (String, String, Boolean, CultureInfo)

Ini menghasilkan int nilai berdasarkan membandingkan operasi termasuk cultureinfo. contoh di halaman membandingkan "Mengubah" di en-US dan en-CZ. CH di en-CZ single "surat".

contoh dari link

using System;
using System.Globalization;

class Sample {
    public static void Main() {
    String str1 = "change";
    String str2 = "dollar";
    String relation = null;

    relation = symbol( String.Compare(str1, str2, false, new CultureInfo("en-US")) );
    Console.WriteLine("For en-US: {0} {1} {2}", str1, relation, str2);

    relation = symbol( String.Compare(str1, str2, false, new CultureInfo("cs-CZ")) );
    Console.WriteLine("For cs-CZ: {0} {1} {2}", str1, relation, str2);
    }

    private static String symbol(int r) {
    String s = "=";
    if      (r < 0) s = "";
    return s;
    }
}
/*
This example produces the following results.
For en-US: change < dollar
For cs-CZ: change > dollar
*/

untuk itu bagi beraksen bahasa yang anda akan perlu untuk mendapatkan budaya yang kemudian menguji string berdasarkan itu.

http://msdn.microsoft.com/en-us/library/hyxc48dt.aspx

-3

0

Komentar (1)

Serge Wautier · Accepted Answer · 2008-12-15T16:06:54+00:00

EDIT 2012-01-20: Oh boy! Solusi itu jadi jauh lebih sederhana dan telah dalam kerangka hampir selamanya. Seperti yang ditunjukkan oleh knightpfhor :

string.Compare(s1, s2, CultureInfo.CurrentCulture, CompareOptions.IgnoreNonSpace);

Berikut ini's fungsi yang strip diakritik dari string:

static string RemoveDiacritics(string text)
{
  string formD = text.Normalize(NormalizationForm.FormD);
  StringBuilder sb = new StringBuilder();

  foreach (char ch in formD)
  {
    UnicodeCategory uc = CharUnicodeInfo.GetUnicodeCategory(ch);
    if (uc != UnicodeCategory.NonSpacingMark)
    {
      sb.Append(ch);
    }
  }

  return sb.ToString().Normalize(NormalizationForm.FormC);
}

Rincian lebih lanjut di MichKap's blog (RIP...).

Prinsipnya adalah bahwa ternyata 'é' ke-2 berturut-turut karakter 'e', akut. Kemudian iterates melalui karakter dan melompat diakritik.

"héllo" menjadi "dia<akut>llo", yang pada gilirannya menjadi "hello".

Debug.Assert("hello"==RemoveDiacritics("héllo"));

Catatan: di Sini's lebih kompak .NET4+ versi ramah fungsi yang sama:

static string RemoveDiacritics(string text)
{
  return string.Concat( 
      text.Normalize(NormalizationForm.FormD)
      .Where(ch => CharUnicodeInfo.GetUnicodeCategory(ch)!=
                                    UnicodeCategory.NonSpacingMark)
    ).Normalize(NormalizationForm.FormC);
}