Informática: Codificación del carácter

Codificación del carácter

Los “caracteres especiales” vuelven a dirigir aquí. Para el uso de caracteres especiales en Wikipedia, vea Wikipedia: Caracteres especiales.

A codificación del carácter consiste en a código eso aparea una secuencia de caracteres del dado juego de caracteres (referido a veces como cifre la página) con algo más, tal como una secuencia de natural números, octetos o pulsos eléctricos, para facilitar almacenaje de texto en computadoras y la transmisión del texto a través de redes de telecomunicación. Los ejemplos comunes incluyen Código Morse, que codifica letras del Alfabeto latino como serie de depresiones largas y cortas de a llave del telégrafo; y ASCII, que codifica letras, números, y otros símbolos, como números enteros.

En días anteriores de computar, la introducción de juegos de caracteres cifrados por ejemplo ASCII (1963) y EBCDIC (1964) comenzó el proceso de la estandardización. Las limitaciones de tales sistemas pronto llegaron a ser evidentes, y un número ad hoc los métodos se convirtieron para extenderlos. La necesidad de apoyar múltiplo sistemas de la escritura (Idiomas), incluyendo CJK familia de las escrituras asiáticas del este, ayuda requerida para un número lejos más grande de caracteres y exigido un acercamiento sistemático al carácter que codifica más bien que los acercamientos ad hoc anteriores.

Contenido

Juegos de caracteres simples

La codificación convencionalmente del juego de caracteres y del carácter era considerada sinónima, pues el mismo estándar especificaría ambos qué caracteres estaban disponibles y cómo debían ser codificados en una corriente de las unidades del código (generalmente con un solo carácter por unidad del código). Por razones históricas, MIME y los sistemas basados en él utilizan el término charset para referir al sistema completo para codificar una secuencia de caracteres en una secuencia de octetos.

Modelo de codificación moderno

Unicode y su estándar paralelo, ISO 10646 Juego de caracteres universal, que juntos constituyen la codificación más moderna del carácter, se rompió lejos de esta idea, y en lugar de otro separó las ideas de qué caracteres están disponibles, su enumeración, cómo se codifican esos números como una serie de “unidades del código” (los números del limitado-tamaño), y finalmente cómo esas unidades se codifican como corriente de los octetos (octetos). La idea detrás de esta descomposición es establecer un sistema universal de los caracteres que se pueden codificar en una variedad de maneras. Describir correctamente este modelo necesita términos más exactos que “juego de caracteres” y el “carácter que codifica”. Los términos usados en el modelo moderno siguen:

A repertorio del carácter es el sistema completo de los caracteres abstractos que un sistema apoya. El repertorio puede ser cerrado, ésa no es ninguna adición se permite sin crear un nuevo estándar (al igual que el caso con el ASCII y la mayor parte de la serie ISO-8859), o puede estar abierto, permitiendo adiciones (al igual que el caso con Unicode y a un grado limitado Páginas del código de Windows). Los caracteres en un repertorio dado reflejan las decisiones que se han tomado sobre cómo dividir sistemas de la escritura en unidades de información lineares. Las variantes básicas del Latino, Griego, y Alfabetos cirílicos, puede ser analizado en letras, dígitos, la puntuación, y algunas caracteres especiales como el espacio, que puede todos ser arreglado en las secuencias lineares simples que se exhiben en la misma orden se leen. Iguale con estos alfabetos sin embargo signos diacríticos plantee una complicación: pueden ser mirados o como parte de un solo carácter que contiene una letra y un signo diacrítico (sabidos en terminología moderna como a precomposed el carácter), o como caracteres separados. El anterior permite un sistema de tramitación lejos más simple de texto pero el último permite cualquier letra/combinación diacrítica que se utilizarán en texto. Otros sistemas de la escritura, tales como árabe y hebreo, se representan con repertorios más complejos del carácter debido a la necesidad de acomodar cosas como el texto bidireccional y glyphs eso se ensambla junto de diversas maneras para diversas situaciones.

A juego de caracteres cifrado especifica cómo representar un repertorio de los caracteres que usan un número de códigos no negativos del número entero llamados puntos de código. Por ejemplo, en un repertorio dado, un carácter que representaba la mayúscula “A” en el alfabeto latino se pudo asignar al número entero 65, el carácter para “B” a 66, y así sucesivamente. Un sistema completo de caracteres y de números enteros correspondientes es un juego de caracteres cifrado. Los juegos de caracteres cifrados múltiples pueden compartir el mismo repertorio; por ejemplo ISO-8859-1 y el código de IBM pagina 037 y 500 todos cubren el mismo repertorio pero traz los a diversos códigos. En un juego de caracteres cifrado, cada punto de código representa solamente un carácter.

A forma de codificación del carácter (CEF) especifica la conversión de los códigos del número entero de un juego de caracteres cifrado en un sistema del número entero del limitado-tamaño valores de código eso facilita almacenaje en un sistema que represente números en forma binaria usando un número fijo de pedacitos (es decir. prácticamente cualquier sistema informático). Por ejemplo, un sistema que almacena la información numérica en 16 unidades del pedacito podría solamente representar directamente números enteros a partir de la 0 a 65.535 en cada unidad, pero números enteros más grandes se podrían representar si más de una unidad de 16 pedacitos podría ser utilizado. Éste es un qué CEF acomoda: define una manera de traz solo código punto de una gama de, por ejemplo, 0 a 1.4 millones, a una serie de uno o más código valores de una gama de, por ejemplo, 0 a 65.535.

El sistema más simple de CEF es simplemente elegir bastante grandes unidades que los valores del juego de caracteres cifrado pueden ser codificados directamente (un punto de código a un valor de código). Esto trabaja bien para los juegos de caracteres cifrados que caben en 8 pedacitos (como lo hacen la mayoría de las codificaciones del non-CJK de la herencia) y para los juegos de caracteres cifrados que para caber razonablemente bien en 16 pedacitos (tales como versiones tempranas de Unicode). Sin embargo, como el tamaño del juego de caracteres cifrado aumenta (e.g. Unicode moderno requiere por lo menos 21 pedacitos/carácter), éste llega a ser cada vez menos eficiente, y es difícil adaptar sistemas existentes para utilizar valores de código más grandes. Por lo tanto, la mayoría de los sistemas que trabajan con versiones más últimas de Unicode utilizan cualquiera UTF-8, que traz puntos de código de Unicode a las secuencias variable-length de octetos, o UTF-16, que traz puntos de código de Unicode a las secuencias variable-length de 16 palabras del pedacito.

Después, a esquema de codificación del carácter (CES) especifica cómo los códigos de tamaño fijo del número entero se deben traz en una secuencia del octeto conveniente para ahorrar en un sistema de ficheros octeto-basado o un excedente que transmite una red octeto-basada. Con Unicode, un esquema de codificación del carácter simple se utiliza en la mayoría de los casos, especificando simplemente si los octetos para cada número entero deben estar en grandeendian o pequeña-endian orden (incluso esto no se necesita con UTF-8). Sin embargo, hay también los esquemas de codificación del carácter compuesto, que utilizan semencias de escape para cambiar entre varios esquemas simples (por ejemplo ISO 2022), y los esquemas de compresión, que intentan reducir al mínimo el número de octetos utilizó por unidad del código (por ejemplo SCSU, BOCU, y Punycode).

Finalmente, puede haber a protocolo de alto nivel cuál provee la información adicional que se puede utilizar para seleccionar la variante particular de a Unicode carácter, particularmente donde hay las variantes regionales que “se han unificado” en Unicode como el mismo carácter. Un ejemplo es el xml de la cualidad de XML: lang.

Historia de las codificaciones del carácter

Repertorios binarios tempranos:

I Ching (China 1122 A.C. - 256 A.C.)
Figuras de Geomantic
Braille

Codificaciones populares del carácter

ISO 646
- ASCII
EBCDIC
- CP930
ISO 8859:
- ISO 8859-1 Europa occidental
- ISO 8859-2 Europa occidental y central
- ISO 8859-3 Europa occidental y al sur europeo (Turco, malteses más esperanto)
- ISO 8859-4 Europa occidental y países bálticos (Lituania, Estonia y lapón)
- ISO 8859-5 Alfabeto cirílico
- ISO 8859-6 Árabe
- ISO 8859-7 Griego
- ISO 8859-8 Hebreo
- ISO 8859-9 Europa occidental con el juego de caracteres turco enmendado
- ISO 8859-10 Europa occidental con el juego de caracteres racionalizado para las idiomas nórdicas, incluyendo sistema islandés completo.
- ISO 8859-11 Tailandés
- ISO 8859-13 Idiomas bálticas más pulimento
- ISO 8859-14 Idiomas célticas (gaélico irlandés, escocés, Galés)
- ISO 8859-15 Agregó la muestra del euro y otras racionalizaciones a ISO 8859-1
- ISO 8859-16 Idiomas centroeuropeas (pulimento, checo, esloveno, Eslovaco, húngaro, albanés, rumano, alemán, italianos)
CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860, CP861, CP863, CP865, CP866, CP869
Juegos de caracteres del MS-WINDOWS:
- Windows-1250 para las idiomas centroeuropeas que utilizan la escritura latina, (pulimento, checo, Eslovaco, húngaro, Eslovenia, servio, croata, rumano y albaneses)
- Windows-1251 para los alfabetos cirílicos
- Windows-1252 para las idiomas occidentales
- Windows-1253 para el Griego
- Windows-1254 para Turco
- Windows-1255 para el hebreo
- Windows-1256 para el árabe
- Windows-1257 para las idiomas bálticas
- Windows-1258 para el vietnamita
OS del Mac romano
KOI8-R, KOI8-U, KOI7
MIK
Corcho o T1
ISCII
VISCII
Big5 (una variante más famosa es Microsoft Cifre la página 950)
- HKSCS
Guobiao
- GB2312
- GBK (Microsoft Cifre la página 936)
- GB18030
Cambie de puesto JIS para el japonés (Microsoft Cifre la página 932)
EUC-KR para el coreano (Microsoft Cifre la página 949)
ISO-2022 y EUC para CJK juegos de caracteres
Unicode (y subconjuntos de eso, por ejemplo 16 el pedacito “plano multilingüe básico”). Vea UTF-8
ANSEL o ISO/IEC 6937

Herramientas de la conversión de carácter

Cruz-plataforma:

iconv - programa y API estandardizado para convertir codificaciones
convert_encoding.py - Utilidad basada Python para convertir archivos de texto entre las codificaciones y la línea arbitrarias conclusiones.^[1]
decodeh.py - algoritmo y módulo heuristically para conjeturar la codificación de una secuencia ^[2]

Linux:

recodifique - convierta el contenido del archivo a partir de una codificación a otra ^[3]
utrac - contenido del archivo del convertido a partir de una codificación a otra.^[4]
cstocs - contenido del archivo del convertido a partir de una codificación a otra
convmv - convierta un nombre de fichero a partir de una codificación a otra.^[5]
enca - analiza las codificaciones para los archivos de texto dados^[6]

Windows:

cscvt - herramienta de la conversión del juego de caracteres^[7]

Vea también

Categoría: Codificación del carácter - artículos relacionados con el carácter que codifica en general
Categoría: Juegos de caracteres - artículos que detallan codificaciones específicas del carácter
Cifre la página - varias codificaciones del juego de caracteres usadas por Microsoft
Página del código de Windows - varias codificaciones del juego de caracteres usadas por el Microsoft Windows
Mojibake - mismap del juego de caracteres.

Referencias

Acoplamientos externos

The original work was translated from English to Spanish. To view the original article please click here.
Creative Commons Licence

Informática

domingo, 11 de julio de 2010

Codificación del carácter - www.worldlingo.com