Come usare ReadAllText quando la codifica del file è sconosciuta

Sto leggendo un file con ReadAllText

String[] values = File.ReadAllText(@"c:\\c\\file.txt").Split(';'); int i = 0; foreach (String s in values) { System.Console.WriteLine("output: {0} {1} ", i, s); i++; } 

Se provo a leggere alcuni file, a volte ottengo il carattere sbagliato (per ÖÜÄÀ …). L’output è come ‘?’, È perché ci sono alcuni problemi con la codifica:

 output: 0 TEST output: 1 A??O? 

Una soluzione sarebbe quella di impostare la codifica in ReadAllText, diciamo qualcosa come ReadAllText(@"c:\\c\\file.txt", Encoding.UTF8) che potrebbe risolvere il problema. Ma cosa succede se otterrei ancora ‘?’ come uscita? Cosa succede se non conosco la codifica del file? E se ogni singolo file avesse una codifica diversa? Quale sarebbe il modo migliore per farlo con c #? Grazie

L’unico modo per farlo in modo affidabile è cercare i segni di ordine dei byte all’inizio del file di testo. (Questo blob rappresenta in generale la endianità della codifica dei caratteri utilizzata, ma anche la codifica – ad esempio UTF8, UTF16, UTF32). Sfortunatamente, questo metodo funziona solo per le codifiche basate su Unicode e nulla prima (per cui devono essere usati metodi molto meno affidabili).

Il tipo StreamReader supporta il rilevamento di questi segni per determinare la codifica: è sufficiente passare un flag al parametro in quanto tale:

 new System.IO.StreamReader("path", true) 

È quindi ansible controllare il valore di stremReader.CurrentEncoding per determinare la codifica utilizzata dal file. Si noti tuttavia che se non esistono segni di codifica byte, CurrentEncoding verrà CurrentEncoding su Encoding.Default .

Consultare la soluzione codeproject per rilevare la codifica

Devi prima controllare la codifica dei file. prova questo

 System.Text.Encoding enc = null; System.IO.FileStream file = new System.IO.FileStream(filePath, FileMode.Open, FileAccess.Read, FileShare.Read); if (file.CanSeek) { byte[] bom = new byte[4]; // Get the byte-order mark, if there is one file.Read(bom, 0, 4); if ((bom[0] == 0xef && bom[1] == 0xbb && bom[2] == 0xbf) || // utf-8 (bom[0] == 0xff && bom[1] == 0xfe) || // ucs-2le, ucs-4le, and ucs-16le (bom[0] == 0xfe && bom[1] == 0xff) || // utf-16 and ucs-2 (bom[0] == 0 && bom[1] == 0 && bom[2] == 0xfe && bom[3] == 0xff)) // ucs-4 { enc = System.Text.Encoding.Unicode; } else { enc = System.Text.Encoding.ASCII; } // Now reposition the file cursor back to the start of the file file.Seek(0, System.IO.SeekOrigin.Begin); } else { // The file cannot be randomly accessed, so you need to decide what to set the default to // based on the data provided. If you're expecting data from a lot of older applications, // default your encoding to Encoding.ASCII. If you're expecting data from a lot of newer // applications, default your encoding to Encoding.Unicode. Also, since binary files are // single byte-based, so you will want to use Encoding.ASCII, even though you'll probably // never need to use the encoding then since the Encoding classs are really meant to get // strings from the byte array that is the file. enc = System.Text.Encoding.ASCII; }