Il teorema di non calcolabilita della norme
Per di piu Unicode definisce anche cio ad esempio chiama « Unicode transformation format » (UTF) addirittura « Universal character serie » (UCS): questi non sono altre che le codifiche necessarie per la vista esterna di Unicode.
Delle diverse codifiche definite di nuovo usate nella scusa di Unicode, mi limitero per ricordare le piuttosto importanti (che razza di sono addirittura lesquelles usate per con l’aggiunta di del 90% dei casi).
UTF-16 (fu UCS-2, descritta nel lussurioso prima che razza di codificazione U): una codifica multibyte ad esempio permette la rappresentazione dell’intero programma Unicode ancora come rappresenta l’intero BMP (65536 codepoint) per una regole di campione « wide » costituita da paio byte (questa eta l’originale codificazione UCS-2, che tipo di periodo durante rango di rappresentare il celibe BMP). In quale momento UTF-16 di nuovo UCS-2 sono ripetutamente confuse, UTF-16 e l’unica di uso corrente. Con UTF-16 qualsivoglia inclinazione viene ratificato durante una sequenza di statura incerto da 2 a quattro ottetti (byte), riservando le codifiche a quattro byte verso codepoint rarissimi gestiti passaggio « codepoint surrogati ».
Mediante UTF-8 ogni grinta viene codificato con una raggruppamento di lunghezza variabile da 1 a quattro ottetti (byte)
UTF 16 definisce ed excretion preciso valore (Byte-Order-Mark oppure BOM) quale sinon puo sperimentare a capire l’endianness usata nella codifica del registro. Il BOM e desiderato dal codepoint (esadecimale) U+FEFF quale riguardo a una congegno big-endian viene immaginato dalla raggruppamento 0xFE,0xFF ed dalla sfilza 0xFF,0xFE contro una congegno little endian. Poiche il codepoint U+FEFF (Zero-Width No-Break Space : Spazio di capienza zero che razza di non consente interruzioni) non puo giammai risiedere il originario spirito di una sequela codificata quando il codepoint U+FFFE non e – ne sara – per niente ambiente ad excretion temperamento bene, l’apparire di personalita di questi due codepoint all’ via di una sequenza codificata permette di desumere la endianness dell’intera serie.
Sopra UTF-8 non esiste indivis BOM (verso motivi in precedenza spiegati) nonostante un qualunque programmi (anzitutto operanti per ambiente windows) ne inseriscono personaggio (xEF,0xBB,0xBF) riscontro per quegli avvezzo in UTF-16. Questo e convalida, eppure imprudente, dallo standard, ed per materia non fa ad esempio rovinare le scatole.
UTF-32/UCS-4: una regole « wide » verso lunghezza fissa: ogni codepoint di Unicode e desiderato da una serie di 4 byte. Si applicano le considerazioni sul BOM gia viste verso UTF-16. Questa norme e usata, durante familiarita, tanto infrequentemente.
Verso motivo dei vantaggi illustrati della codificazione F sulla codifica U, UTF-8 e quest’oggi la codificazione piuttosto usata a la rappresentazione esterna di testi ed testi multilingua. UTF-16 e per su abbastanza usata nella manifestazione interna delle stringhe (per particolari e quella per maniera per ciascuno i sistemi operativi Microsoft posteriori verso Windows 2000)
Il problematica centrale, rivisitato
Giunti concretamente infine del nostro esame (semplificato) kissbrides.com siti web dei codici addirittura codifiche associate, siamo pronti per cacciare di conoscere quali inconvenienti possono produrre il problematica centrale quale ho enunciato certi parte fa.
Quegli come succede e ad esempio certain elenco (file) disposto a capitare visualizzato durante una tempo tripletta (espressivita, regole, endianness) bourlingue per svanire circa di un modo luogo autorita dei tre componenti viene applicato mediante come erronea.
Esiste un’altra alternativa, in altre parole che razza di sul sistema meta – colui riguardo a cui viene visualizzato il registro – non esista il font dovuto verso la visualizzazione (quale, mancano i scrittura Giapponesi). Presente mancanza sinon elimina agevolmente installando indivis serie di font completi (piu volte chiamati font Unicode).
Il concetto principale e preciso qualora sinon riescono verso ricostruire la tripletta di inizio, quella di destinazione, anche a individuare la tecnica corretta di spostamento frammezzo a le paio.
Malauguratamente, colui ad esempio ho adagio in precedenza e borioso di nuovo a pronunciare esso che io (ed io celibe, a quelle come ne so) chiamo « il ideale di non calcolabilita della transcodifica »: