Top 10 de los artículos

YouTube
Gmail
Goole
GayRomeo
Números chinos
Números romanos
Orkut
Costco
Sistema porta hepático
El mundo Factbook

News:

Unicode

Esta página contiene caracteres especiales.
Debido a limitaciones técnicas, algunos browsers de la tela no puede exhibir éstos glyphs correctamente. Más Info…

Unicode
Codificaciones del carácter
UCS
El traz
Texto bidireccional
BOM
Unificación de Han
Unicode y HTML
Unicode y E-mail
Tipografías de Unicode

En el computar, Unicode es estándar de la industria el permitir computadoras representar y manipular constantemente texto expresado en la mayor parte de el mundo sistemas de la escritura. Convertido en tándem con Juego de caracteres universal estándar y publicado en forma del libro como El estándar de Unicode, Unicode consiste en un repertorio de cerca de 100.000 caracteres, un sistema de las cartas de código para la referencia visual, una metodología de codificación y sistema del estándar codificaciones del carácter, una enumeración de las características del carácter tales como superior y más bajo caso, un sistema de datos de la referencia ficheros informáticos, y un número de artículos relacionados, tales como características del carácter, reglas para normalización, descomposición, colación, rindiendo y bidireccional orden de la exhibición (para la exhibición correcta del texto que contiene ambas escrituras derecho-a-izquierdas, por ejemplo Árabe o Hebreo, y escrituras de izquierda a derecha).[1]

Consorcio de Unicode, la organización no lucrativa que coordina el desarrollo de Unicode, tiene la meta ambiciosa eventual de substituir esquemas de codificación del carácter existente por Unicode y sus esquemas estándares del formato de la transformación de Unicode (UTF), tantos de los esquemas existentes se limitan de tamaño y alcance y son incompatible con multilingüe ambientes.

El éxito de Unicode en los juegos de caracteres de la unificación ha conducido a su uso extenso y predominante en internacionalización y localización de software. El estándar se ha puesto en ejecución en muchas tecnologías recientes, incluyendo XML, Lenguaje de programación de Java, Marco de Microsoft .NET y moderno sistemas operativos.

Unicode se puede poner en ejecución por diferente codificaciones del carácter. Las codificaciones más de uso general son UTF-8 (que aplicaciones 1 octeto para todos ASCII caracteres, que tienen los mismos valores de código que en la codificación estándar del ASCII, y hasta 4 octetos para otros caracteres), el ahora-obsoleto UCS-2 (que utiliza 2 octetos para todos los caracteres, pero no incluye cada carácter en el estándar de Unicode), y UTF-16 (que amplía UCS-2, usando 4 octetos para codificar los caracteres que faltan de UCS-2).

Contenido

Origen y desarrollo

Unicode tiene la puntería explícita de superar las limitaciones de tradicional codificaciones del carácter, por ejemplo ésos definidos por ISO 8859 el estándar que encuentran uso amplio en varios países del mundo pero siguen siendo en gran parte incompatible con uno a. Muchas codificaciones tradicionales del carácter comparten un problema común en que permiten el tratamiento por ordenador bilingüe (que usa generalmente Caracteres romanos y la escritura local) pero tratamiento por ordenador no multilingüe (tratamiento por ordenador de las escrituras arbitrarias mezcladas con uno a).

Unicode, en intento, codifica el subyacente caracteresgrafemas y grafema-como unidades - más bien que la variante glyphs (renderings) para tales caracteres. En el caso de Caracteres chinos, esto conduce a veces a las controversias sobre distinguir el carácter subyacente de sus glyphs variables (véase Unificación de Han).

En el proceso de texto, Unicode toma el papel de proporcionar un único punto de código - un número, no un glyph - para cada carácter. Es decir Unicode representa un carácter de una manera abstracta y sale de representación de la representación visual (tamaño, la forma, fuente o estilo) al otro software, tal como a web browser o procesador de textos. Esta puntería simple llega a ser complicada, sin embargo, por las concesiones hechas por los diseñadores de Unicode en la esperanza de animar una adopción más rápida de Unicode.

Los primeros 256 puntos de código fueron hechos idénticos al contenido de ISO 8859-1 para hacerlo trivial para convertir el texto occidental existente. Muchos caracteres esencialmente idénticos fueron codificados las épocas múltiples en diversos puntos de código de preservar las distinciones usadas por codificaciones de la herencia y por lo tanto para permitir la conversión de esas codificaciones a Unicode (y traseras) sin perder ninguna información. Por ejemplo, “formas de ancho totalla “sección de los puntos de código abarca un alfabeto latino completo que esté a parte de la sección latina principal del alfabeto. En chino, japonés y coreano (CJK) las fuentes, estos caracteres se rinden en la misma anchura que CJK ideogramas más bien que en la mitad de la anchura. Para otros ejemplos, vea Caracteres duplicados en Unicode.

Arquitectura y terminología

  • Plano 0 (0000-FFFF): Plano multilingüe básico (BMP)
  • Plano 1 (10000-1FFFF): Plano multilingüe suplementario (SMP)
  • Plano 2 (20000-2FFFF): Plano Ideographic suplementario (SIP)
  • Los planos 3 a 13 (30000-DFFFF) son actualmente no asignados
  • Plano 14 (E0000-EFFFF): Plano Special-purpose suplementario (SSP)
  • Plano 15 (F0000-FFFFF): Área-UNo privada suplementaria del uso
  • Plano 16 (100000-10FFFF): Área-b privada suplementaria del uso

Todos los puntos de código en el BMP están alcanzados como solo punto de código adentro UTF-16 codificando, mientras que los puntos de código en los planos 1 a 16 (planos suplementarios, o, informal, planos astrales) están alcanzados como pares sustitutos adentro UTF-16. Dentro de cada plano los caracteres se asignan en nombrado bloques de caracteres relacionados. Aunque los bloques son un tamaño arbitrario, son siempre un múltiplo 16 puntos de código, y a menudo un múltiplo de 128 puntos de código. Los caracteres requeridos para una escritura dada se pueden separar hacia fuera sobre varios diversos bloques. Las categorías siguientes de los puntos de código se definen:

  • Puntos de código sustitutos
  • Noncharacters
  • Caracteres reservados
  • Caracteres privados del uso
  • Caracteres gráficos
  • Caracteres del formato
  • Caracteres de código de control

Puntos de código en la gama U+D800. U+DBFF (1.024 puntos de código) se conocen como puntos de código alto-sustitutos, y puntos de código en la gama U+DC00. U+DFFF (1.024 puntos de código) se conocen como puntos de código bajo-sustitutos. Un punto de código alto-sustituto (también sabido como un sustituto principal) siguió por un punto de código bajo-sustituto (también sabido como un sustituto que se arrastra) junto forma un par sustituto que representa un punto de código fuera del Plano multilingüe básico en UTF-16 forma de codificación. Los puntos de código sustitutos altos y bajos son inválidos por sí mismos, y son solamente válidos como pares sustitutos en textos codificados UTF-16. Así la gama de los puntos de código que están disponibles para el uso pues los caracteres son U+0000. U+D7FF y U+E000. U+10FFFF (1.112.064 puntos de código). El valor hexadecimal de estos puntos de código (es decir. excepto sustitutos) se refiere a veces como el valor escalar del carácter. Noncharacters es los puntos de código que nunca están garantizados para ser utilizados para codificar caracteres, aunque los usos pueden hacer uso estos puntos de código internamente si desean. Hay noncharacters del sixty-six: U+FDD0. U+FDEF y cualquier conclusión del punto de código en el valor FFFE o FFFF (es decir. U+FFFE, U+FFFF, U+1FFFE, U+1FFFF,… U+10FFFE, U+10FFFF). El sistema de noncharacters es estable, y no se definirá ningunos noncharacters nuevos siempre.[3] Los puntos de código reservados son esos puntos de código que están disponibles para el uso como caracteres codificados, pero todavía no son definidos como caracteres por Unicode. Se definen los caracteres privados del uso como los caracteres para el uso privado la semántica de estos caracteres no son definidos por Unicode, y así que cualquier intercambio de tales caracteres requiere un acuerdo entre el remitente y el receptor en su interpretación. Hay tres áreas privadas del uso en el codespace de Unicode:

  • Área privada del uso: U+E000. U+F8FF (6.400 caracteres)
  • Área-UNo privada suplementaria del uso: U+F0000. U+FFFFD (65.534 caracteres)
  • Área-b privada suplementaria del uso: U+100000. U+10FFFD (65.534 caracteres)

Los caracteres gráficos son caracteres definidos por Unicode para tener un semántico particular, y cualquiera tiene un visible glyph forme o represente un espacio visible. En fecha Unicode 5.1 hay 100.507 caracteres gráficos. Los caracteres del formato son los caracteres que no tienen un aspecto visible, pero pueden tener un efecto sobre el aspecto o comportamiento de caracteres vecinos. Por ejemplo, U+200C ANCHURA CERO NON-JOINER y U+200D CARPINTERO CERO DE LA ANCHURA se puede utilizar para cambiar el defecto formar el comportamiento de caracteres adyacentes (e.g. para inhibir ligatures o solicitar la formación del ligature). Hay 141 caracteres del formato en Unicode 5.1. Puntos de código de Sixty-five (U+0000. U+001F y U+007F. U+009F) se reservan como códigos de control, y corresponden a los códigos del control C0 y C1 definidos en ISO/IEC 6429. De estos U+0009 (lengüeta), U+000A (avance de línea) y U+000D (retorno del carro) son ampliamente utilizados en textos Unicode-codificados. Los caracteres gráficos, los caracteres del formato, los caracteres de código de control y los caracteres privados del uso se conocen colectivamente como caracteres asignados. El sistema de caracteres del gráfico y del formato definidos por Unicode no corresponde directamente al repertorio de caracteres abstractos eso es representable debajo de Unicode. Unicode codifica caracteres asociando un carácter abstracto a un punto de código particular.[4] Sin embargo, no todos los caracteres abstractos se codifican como solo carácter de Unicode, y algunos caracteres abstractos se pueden representar en Unicode por una secuencia de dos o más caracteres. Por ejemplo, la letra pequeña latina I con Ogonek y el punto arriba y agudo, que se requiere en Lithuanian, es representada por la secuencia U+012F, U+0307, U+0301 del carácter. Unicode mantiene una lista de las secuencias únicamente nombradas del carácter para los caracteres abstractos que no se codifican directamente en Unicode.[5] Todo el gráfico, formato y caracteres privados del uso tienen un nombre único e inmutable por el cual puedan ser identificados. Aunque un nombre del carácter de Unicode no se puede cambiar bajo ninguna circunstancias (éste no era históricamente el caso), en caso de que el nombre sea seriamente defectuoso y de engaño o tenga un error tipográfico serio, un alias formal puede ser definido, y se anima a los usos que utilicen el alias formal en lugar del nombre oficial del carácter. Por ejemplo, la SÍLABA WU de U+A015 YI tiene la MARCA formal de la ITERACIÓN de la SÍLABA del alias YI, y la FORMA de la PRESENTACIÓN U+FE18 PARA BRAKCET LENTICULAR BLANCO DERECHO VERTICAL tiene la FORMA formal de la PRESENTACIÓN del alias PARA EL SOPORTE LENTICULAR BLANCO DERECHO VERTICAL.[6]

Estándar

Consorcio de Unicode, basado adentro California, desarrolla el estándar de Unicode. Hay varios niveles de la calidad de miembro, y el cualquier querer del compañía o individual pagar las deudas de la calidad de miembro puede ensamblar esta organización. Los miembros de pleno derecho incluyen la mayor parte de las compañías principales del software y del hardware con cualquier interés en los estándares del proceso de textos, incluyendo Sistemas del adobe, Apple, Google, CABALLOS DE FUERZA, IBM, Microsoft, Sun Microsystems y Yahoo.

El consorcio primero publicó El estándar de Unicode (ISBN 0-321-18578-1) en 1991, y continúa desarrollando los estándares basados en ese trabajo original. La versión principal más última del estándar, Unicode 5.0 (ISBN 0-321-48091-0), fue publicado en 2007. Los ficheros de datos para la versión de menor importancia más reciente, Unicode 5.1, están disponibles del Web site del consorcio.

Unicode se desarrolla conjuntamente con International Organization for Standardization y partes el repertorio del carácter con ISO/IEC 10646: el juego de caracteres universal. Unicode e ISO/IEC 10646 funcionan equivalente como codificaciones del carácter, pero El estándar de Unicode contiene mucho más información para los ejecutores, cubriendo - profundizado - asuntos tales como bitwise codificación, colación y representación. El estándar de Unicode enumera una multiplicidad de características del carácter, incluyendo ésos necesitados para apoyar texto bidireccional. Los dos estándares utilizan terminología levemente diversa.

Hasta el momento las versiones principales y de menor importancia siguientes del estándar de Unicode se han publicado (se omiten las versiones de la actualización, que no incluyen ninguna cambios al repertorio del carácter,).[7]

Versión Fecha Libro Edición correspondiente de ISO/IEC 10646 Escrituras Caracteres
1.0.0 Octubre de 1991 ISBN 0-201-56788-1 (Vol.1) 24 7,161
1.0.1 Junio de 1992 ISBN 0-201-60845-6 (Vol.2) 25 28,359
1.1 Junio de 1993 ISO/IEC 10646-1: 1993 24 34,233
2.0 Julio de 1996 ISBN 0-201-48345-9 ISO/IEC 10646-1: 1993 enmiendas más 5, 6 y 7 25 38,950
2.1 Mayo de 1998 ISO/IEC 10646-1: 1993 7, y dos caracteres más de las enmiendas 5, 6 y de la enmienda 18 25 38,952
3.0 Septiembre de 1999 ISBN 0-201-61633-5 ISO/IEC 10646-1: 2000 38 49,259
3.1 Marzo de 2001 ISO/IEC 10646-1: 2000

ISO/IEC 10646-2: 2001

41 94,205
3.2 Marzo de 2002 ISO/IEC 10646-1: 2000 enmiendas más 1

ISO/IEC 10646-2: 2001

45 95,221
4.0 Abril de 2003 ISBN 0-321-18578-1 ISO/IEC 10646:2003 52 96,447
4.1 Marzo de 2005 ISO/IEC 10646:2003 más la enmienda 1 59 97,720
5.0 Julio de 2006 ISBN 0-321-48091-0 ISO/IEC 10646:2003 más, de las enmiendas 1 y 2 y cuatro caracteres de la enmienda 3 64 99,089
5.1 Abril de 2008 ISO/IEC 10646:2003 más las enmiendas 1, 2, 3 y 4 75 100,713

Unicode 5.2, correspondiendo a ISO/IEC 10646:2003 más enmiendas 1-6, programar tentativo para el lanzamiento en el verano 2009.[8]

Escrituras cubiertas

Unicode cubre casi todas las escrituras (sistemas de la escritura) en uso actual hoy.[9]

Aunque 75 sistemas de la escritura (alfabetos, syllabaries, y otros) se incluyen en la versión más última de Unicode, allí siguen siendo más todavía que aguardan la codificación, particularmente algo usada en ajustes históricos, litúrgicos y académicos. Otras adiciones de caracteres a las escrituras ya-codificadas, así como símbolos, particularmente para matemáticas y música (bajo la forma de notas y símbolos rítmicos), también ocurra. El comité del mapa itinerario de Unicode (Michael Everson, Rick McGowan, y Ken Whistler) mantienen la lista de las escrituras que son candidatos o candidatos del potencial a la codificar y a sus asignaciones tentativas del bloque del código en Mapa itinerario de Unicode página del Consorcio de Unicode Web site. Para algunas escrituras en el mapa itinerario, las ofertas de codificación se han hecho y están trabajando su manera con el proceso de la aprobación. Para otras, no se ha hecho ninguna oferta todavía, y aguardan el acuerdo en repertorio del carácter y otros detalles de las comunidades de usuario implicadas.

Entre las escrituras programar actualmente para codificar en la versión siguiente de Unicode esté Avestan, Hieroglyphics egipcios, Tai Tham, Tai Viet, Aramaic imperial, Inscriptional Pahlavi, Inscriptional Parthian, Javanese, Kaithi, Lisu, Meetei Mayek, Nü Shu, Viejo árabe del sur, Viejo Turkic, Samaritan y Tangut.[10]

Otras escrituras para las cuales una oferta de codificación se anticipa para ser sometida en un futuro próximo incluyen clásico Yi, Viejo Uyghur y Escritura del hueso de Oracle. Sin embargo, hay un número de sistemas de la escritura, por ejemplo Mayan, Rongorongo y A linear cuáles no se están considerando actualmente para codificar.

Las escrituras inventadas modernas, la mayor parte de que no califican para la inclusión en Unicode debido a la carencia del uso del mundo real, se enumeran en Registro alistado de Unicode, junto con oficioso pero ampliamente utilizado Área privada del uso asignaciones de código.

El traz y codificaciones

Vea también: El traz de los caracteres de Unicode

Varios mecanismos se han especificado para poner Unicode en ejecución; cuál los ejecutores uno eligen depende de espacio de almacenaje disponible, código de fuente compatibilidad, e interoperabilidad con otros sistemas.

Formato de la transformación de Unicode y juego de caracteres universal

Unicode define dos métodos traz: Formato de la transformación de Unicode Codificaciones (UTF), y Juego de caracteres universal Codificaciones (UCS). Una codificación traz (posiblemente un subconjunto de) la gama de Unicode puntos de código a las secuencias de valores en una cierta gama de tamaño fijo, llamadas valores de código. Los números en los nombres de las codificaciones indican el número de pedacitos en un valor de código (para las codificaciones de UTF) o el número de octetos por codificaciones del valor de código (para el UCS). UTF-8 y UTF-16 son probablemente las codificaciones más de uso general. UCS-2 es un subconjunto obsoleto de UTF-16; UCS-4 y UTF-32 son funcionalmente equivalentes.

Las codificaciones de UTF incluyen:

  • UTF-1 - un precursor jubilado de UTF-8, maximiza compatibilidad con ISO 2022, parte no más de El estándar de Unicode
  • UTF-7 - una codificación relativamente impopular de 7 pedacitos, a menudo considerada obsoleta (no parte de El estándar de Unicode pero algo un RFC)
  • UTF-8 - 8 pedacito, codificación de la variable-anchura, con la cual maximiza compatibilidad ASCII.
  • UTF-EBCDIC - una codificación de la variable-anchura de 8 pedacitos, con la cual maximiza compatibilidad EBCDIC. (no parte de El estándar de Unicode)
  • UTF-16 - 16 pedacito, codificación de la variable-anchura
  • UTF-32 - 32 pedacito, codificación de la fijo-anchura

UTF-8 utiliza un a cuatro octetos por punto de código y, siendo compacto para las escrituras latinas y ASCII-compatible, proporciona de hecho codificación estándar para el intercambio del texto de Unicode. También es utilizado por la más reciente Distribuciones de Linux como reemplazo directo para la dirección de texto de las codificaciones de la herencia en general.

Las codificaciones UCS-2 y UTF-16 especifican el Unicode Marca de la orden del octeto (BOM) para el uso a los principios de los archivos de texto, que se pueden utilizar para la detección de la clasificación de octetos (o endianness del octeto detección). Algunos reveladores del software lo han adoptado para otras codificaciones, incluyendo UTF-8, que no necesita una indicación de la orden del octeto. En este caso procura marcar el archivo como contener el texto de Unicode. El BOM, punto de código U+FEFF hace que la característica importante del unambiguity en octeto reordene, sin importar la codificación de Unicode usada; U+FFFE (el resultado de octeto-intercambiar U+FEFF) no se compara a un carácter legal, y a U+FEFF en otros lugares, con excepción del principio del texto, transporta el espacio no-break de la cero-anchura (un carácter sin aspecto y ningún efecto con excepción de prevenir la formación de ligatures). También, las unidades FE y FF nunca aparezca adentro UTF-8. El mismo carácter convertido a UTF-8 se convierte en la secuencia del octeto BB EF BF.

En UTF-32 y UCS-4, servicios de un 32 del pedacito valor de código como representación bastante directa de cualquier punto de código de carácter (aunque el endianness, que varía a través de diversas plataformas, afecta cómo el valor de código manifiesta realmente como secuencia del octeto). En los otros casos, cada punto de código se puede representar por un número variable de los valores de código. UTF-32 es ampliamente utilizado como representación interna del texto en programas (en comparación con el texto almacenado o transmitido), desde cada sistema operativo del Unix que utilice GCC recopiladores para generar aplicaciones del software él como la codificación estándar del “carácter ancho”. Versiones recientes del Python el lenguaje de programación (que comienza con 2.2) se puede también configurar para utilizar UTF-32 como la representación para las secuencias del unicode, diseminando con eficacia tal codificación adentro de alto nivel software cifrado.

Punycode, otro forma de codificación, permite la codificación de las secuencias de Unicode en el juego de caracteres limitado apoyado por ASCII- basado Domain Name System. La codificación se utiliza como parte de IDNA, de que es un sistema permitiendo el uso Nombres internacionalizados del dominio en todas las escrituras que son apoyadas por Unicode. Anterior y ahora las ofertas históricas incluyen UTF-5 y UTF-6.

GB18030 está otro forma de codificación para Unicode, de la administración de la estandardización de China. Es el funcionario juego de caracteres de República Popular de China (PRC). BOCU-1 y SCSU son los esquemas de la compresión de Unicode. RFC del día de los tontos de abril de 2005 especificó dos parodiar Codificaciones de UTF, UTF-9 y UTF-18.

Confeccionado contra caracteres compuestos

Unicode incluye un mecanismo para la forma y tan grandemente extender de carácter de modificación el repertorio apoyado del glyph. Esto cubre el uso de combinar marcas diacríticas. Consiguen insertados después del carácter principal (uno puede apilar el excedente de varios signos diacríticos que combina el mismo carácter). Unicode también contiene precomposed versiones de la mayoría de la letra/de las combinaciones diacríticas en uso normal. Este la conversión de la marca a y desde las codificaciones de la herencia más simples y permite que los usos utilicen Unicode como formato de texto interno sin tener que poner combinar en ejecución caracteres. Por ejemplo é puede ser representado en Unicode como U+0065 (Letra pequeña latina e) seguido por U+0301 (el combinar agudo) solamente él puede también ser representado mientras que precomposed el carácter U+00E9 (letra pequeña latina e con agudo). Tan en muchos casos, los usuarios tienen muchas maneras de codificar el mismo carácter. Para tratar de esto, Unicode proporciona el mecanismo de equivalencia canónica.

Un ejemplo de esto se presenta con hangul, el alfabeto coreano. Unicode proporciona el mecanismo para las sílabas del hangul que componen de sus subcomponentes individuales, conocido como hangul Jamo. Sin embargo, también proporciona las 11.172 combinaciones de precomposed sílabas del hangul.

CJK los ideogramas tienen actualmente códigos solamente para su precomposed la forma. No obstante, la mayor parte de esos ideogramas abarcan elementos más simples (a menudo llamados los radicales en inglés), así que en principio Unicode habría podido descomponerlo apenas pues ha sucedido con hangul. Esto habría reducido grandemente el número de los puntos de código requeridos, mientras que permitía la exhibición de virtualmente cada ideograma concebible (que pudo eliminar algunos de los problemas causó por Unificación de Han). Una idea similar cubre alguno métodos de entrada, por ejemplo Cangjie y Wubi. Sin embargo, las tentativas de hacer esto para la codificación del carácter han tropezado con el hecho de que los ideogramas no se descomponen realmente tan simplemente o como se parece deben tan regularmente.

Un sistema de radicales fue proporcionado en Unicode 3.0 (los radicales de CJK entre U+2E80 y U+2EFF, los radicales de KangXi en U+2F00 a U+2FDF, y los caracteres ideographic de la descripción de U+2FF0 a U+2FFB), solamente el estándar de Unicode (ch. 11.1 de Unicode 4.1) advierte contra usar secuencias ideographic de la descripción como representación alterna para los caracteres previamente codificados:

Este proceso es diferente de una codificación formal de un ideograma. No hay descripción canónica de ideogramas unencoded; no hay semántico asignado a los ideogramas descritos; no hay equivalencia definida para los ideogramas descritos. Conceptual, las descripciones del ideograma son más relacionadas con la frase inglesa, “un `e' con un acento agudo en él,” que con la secuencia U+006E <, U+0301 del carácter> [sic; “e” debe ser U+0065].

Ligatures

Muchas escrituras, incluyendo Árabe y Devanagari, tenga reglas orthográficas especiales que requieran que ciertas combinaciones de letterforms estén combinadas en especial formas del ligature. Las reglas que gobiernan la formación del ligature pueden ser absolutamente complejo, requiriendo tecnologías escritura-que forman especiales tales como AS (motor caligráfico árabe de DecoType en los años 80 y usado para generar todos los ejemplos árabes en las ediciones impresas del estándar de Unicode) para el cual se convirtió la prueba del concepto OpenType (por Adobe y Microsoft), Grafito (por SIL internacional), o AAT (por Apple). Las instrucciones también se encajan en fuentes de decir sistema operativo cómo hacer salir correctamente diversas secuencias del carácter. Una solución simple a la colocación de combinar marcas o signos diacríticos está asignando a marcas una anchura de cero y está poniendo el glyph sí mismo el al izquierdo o derecho de la izquierda sidebearing (dependiendo de la dirección de la escritura se piensan para ser utilizados con). Una marca manejó esta manera aparecerá sobre cualquier carácter la precede, pero no ajustará su posición concerniente a la anchura o a la altura del glyph bajo; puede ser visualmente torpe y puede traslapar algunos glyphs. El apilar verdadero es imposible, pero se puede aproximar en casos limitados (por ejemplo, las vocales y las marcas tailandesas del tono tapa-que combinan pueden apenas estar en diversas alturas a comenzar con). Este acercamiento es solamente eficaz en monospaced fonts pero se puede generalmente también utilizar como retraso que rinde método cuando métodos más complejos fallan.

En fecha 2004, la mayoría del software todavía no puede manejar confiablemente muchas características no apoyadas por más viejos formatos de la fuente, así que combinar caracteres no trabajará generalmente correctamente. Por ejemplo, (precomposed e con el macron y antedicho agudo) y ḗ (e seguida por el macron que combina arriba y combinando antedicho agudo) se deben rendir idénticamente, ambos que aparecen como e con a macron y acento agudo, pero en la práctica, su aspecto puede variar grandemente a través de usos del software. Semejantemente, underdots, según lo necesitado en romanization de Indicador, será colocado a menudo incorrectamente. Como workaround, los caracteres de Unicode a los cuales traz precomposed glyphs se pueden utilizar para muchos tales caracteres. La necesidad de tales alternativas hereda de las limitaciones de fuentes y tecnología de la representación, no debilidades de Unicode sí mismo.

Subconjuntos estandardizados

Varios subconjuntos de Unicode se estandardizan: Microsoft Windows puesto que Windows NT 4.0 ayudas WGL-4 con 652 caracteres, que se considera apoyar todas las idiomas europeas contemporáneas usando la escritura latina, griega o cirílica. Otros subconjuntos estandardizados de Unicode incluyen los subconjuntos europeos multilingües:[11] MES-1 (escrituras latinas solamente, 335 caracteres), MES-2 (caracteres del latín, griegos y del cirílico 1062)[12] y MES-3A y MES-3B (dos subconjuntos más grandes, no demostrados aquí). Observe que MES-2 incluye cada carácter en MES-1 y WGL-4.

WGL-4, MES-1 y MES-2
Fila Células Gamas
00 20-7E Latín básico (00-7F)
A0-FF Suplemento Latin-1 (80-FF)
01 00–13, 14–15, 16-2B, 2C-2D, 2E-4D, 4E-4F, 50-7E, 7F Extendido-UNo latino (00-7F)
8F, 92, B7, DE-EF, FA-FF Extendido-b latino (80-FF )
02 18-1B, 1E-1F Latín Extendido-b ( 00-4F)
59, 7C, 92 Extensiones de IPA (50-AF)
BB-BD, C6, C7, C9, D6, D8-DB, C.C., DD, DF, EE Letras del modificante del espaciamiento (B0-FF)
03 74-75, 7A, 7E, 84-8A, 8C, 8E-A1, A3-CE, D7, DA-E1 Griego (70-FF)
04 00, 01-0C, 0D, 0E-4F, 50, 51-5C, 5D, 5E-5F, 90-91, 92-C4, C7-C8, CB-CC, D0-EB, EE-F5, F8-F9 Cirílico (00-FF)
1E 02-03, 0A-0B, 1E-1F, 40-41, 56-57, 60-61, 6A-6B, 80–85, 9B, F2-F3 Adicional extendido latino (00-FF)
1F 00-15, 18-1D, 20-45, 48-4D, 50-57, 59, 5B, 5D, 5F-7D, 80-B4, B6-C4, C6-D3, D6-DB, DD-EF, F2-F4, F6-FE Extendido griego (00-FF)
20 13–14, 15, 17, 18–19, 1A-1B, 1C-1D, 1E, 20-22, 26, 30, 32-33, 39-3A, 3C, 3E Puntuación general (00-6F)
44, 4A, 7F, 82 Exponentes y Subíndices (70-9F)
A3-A4, A7, CA, AF Símbolos de modernidad (A0-CF)
21 05, 13, 16, 22, 26, 2E Símbolos de Letterlike (00-4F)
5B-5E Formas de número (50-8F)
90–93, 94-95, A8 Flechas (90-FF)
22 00, 02, 03, 06, 08-09, 0F, 11-12, 15, 19-1A, 1E-1F, 27-28, 29, 2A, 2B, 48, 59, 60-61, 64-65, 82-83, 95, 97 Operadores matemáticos (00-FF)
23 02, 0A, 20-21, 29-2A Técnico misceláneo (00-FF)
25 00, 02, 0C, 10, 14, 18, 1C, 24, 2C, 34, 3C, 50-6C Dibujo de la caja (00-7F)
80, 84, 88, 8C, 90-93 Elementos del bloque (80-9F)
A0-A1, AA-AC, B2, BA, A.C., C4, CA-CB, CF, D8-D9, E6 Formas geométricas (A0-FF)
26 3A-3C, 40, 42, 60, 63, 65-66, 6A, 6B Símbolos misceláneos (00-FF)
F0 (01–02) Área privada del uso (00-FF…)
FB 01–02 La presentación alfabética forma (00-4F)
FF FD Specials

Rindiendo el software que no puede procesar una exhibición del carácter de Unicode apropiadamente lo más a menudo posible él como solamente rectángulo abierto, o el Unicode “carácter de reemplazo” (U+FFFD, ), indicar la posición del carácter desconocido. Algunos sistemas han hecho tentativas de proporcionar más información sobre tales caracteres. Apple Último recurso la fuente exhibirá un glyph substituto que indica la gama de Unicode del carácter y SIL Fuente del retraso de Unicode exhibirá una caja que demuestra el valor escalar hexadecimal del carácter.

Unicode funcionando

Sistemas operativos

Unicode se ha convertido en el esquema dominante para el proceso y a veces el almacenaje internos (aunque los muchos de texto todavía se almacenan en codificaciones de la herencia) del texto. Los adopters tempranos tendieron para utilizar UCS-2 y se trasladaron más adelante a UTF-16 (pues ésta era la menos manera quebrantadora de agregar la ayuda para los caracteres del non-BMP). El más conocido tal sistema es Windows NT (y sus descendientes, Windows 2000, Windows XP y Windows Vista), que utiliza Unicode como la codificación interna única del carácter. Java y .NET ambientes del bytecode, OS X del Mac, y KDE también utilícelo para la representación interna.

UTF-8 (desarrollado originalmente para Plan 9) se ha convertido la codificación del almacenaje principal encendido la mayoría Unix-como sistemas operativos (otros también son utilizados sin embargo por algunas bibliotecas) porque es un reemplazo relativamente fácil para tradicional ASCII extendido juegos de caracteres.

Los motores de texto-representación multilingües que utilizan Unicode incluyen Uniscribe para el Microsoft Windows, ATSUI para OS X del Mac y Pango, a software libre motor usado cerca GTK+ (y por lo tanto GNOMO tablero del escritorio).

Métodos de entrada

Artículo principal: Entrada de Unicode

Porque las disposiciones de teclado no pueden tener combinaciones dominantes simples para todos los caracteres, varios sistemas operativos proporcionan los métodos de entrada alternativos que permiten el acceso al repertorio entero.

ISO 14755[13], que estandardiza los métodos para incorporar los caracteres de Unicode de sus codepoints, especifica varios métodos. Hay Método básico, donde a secuencia que comienza es seguido por la representación hexadecimal del codepoint y secuencia de conclusión. Hay también a método de la entrada de la pantalla-selección especificado, donde los caracteres se enumeran en una tabla en una pantalla, por ejemplo con un programa del mapa de carácter.

E-mail

Artículo principal: Unicode y E-mail

MIME define dos diversos mecanismos para codificar los caracteres no-ASCII adentro E-mail, dependiendo de si los caracteres están en jefes del E-mail tales como el “tema: ” o en el cuerpo del texto del mensaje. En ambos casos, se identifica el juego de caracteres original tan bien como una codificación de la transferencia. Para la transmisión del E-mail de Unicode UTF-8 juego de caracteres y Base64 se recomienda la codificación de la transferencia. Los detalles de los dos diversos mecanismos se especifican en los estándares del MIME y se ocultan generalmente de usuarios del software del E-mail.

La adopción de Unicode adentro E-mail ha sido muy lento. Un poco de texto Este-Asiático todavía se codifica en codificaciones por ejemplo ISO-2022, y algunos dispositivos, tales como célula telefonan, todavía no pueden manejar los datos de Unicode correctamente. La ayuda ha estado mejorando sin embargo. Muchos abastecedores libres importantes del correo por ejemplo Google (gmail), Microsoft (Hotmail) ayuda él. La excepción notable es Yahoo.

Web

Artículo principal: Unicode y HTML

Todos W3C las recomendaciones han utilizado Unicode como su juego de caracteres del documento desde HTML 4.0. Browsers del Web han apoyado Unicode, especialmente UTF-8, por muchos años. Resultado de los problemas de la exhibición sobre todo de fuente ediciones relacionadas; particularmente versiones de Microsoft Internet Explorer hasta la versión 6 no rinden muchos puntos de código a menos que estén dichos explícitamente utilizar una fuente que los contenga.[14]

Aunque las reglas del sintaxis pueden afectar la orden en la cual los caracteres se permiten aparecer, ambos HTML 4 y XML (incluyendo XHTML) los documentos, por la definición, abarcan caracteres la mayor parte de de los puntos de código de Unicode, a excepción de:

  • la mayor parte de Códigos de control C0 y C1
  • los puntos de código permanente-no asignados D800-DFFF
  • cualquier conclusión del punto de código en FFFE o FFFF

Estos caracteres manifiestan cualquiera directamente como octetos según la codificación del documento, si la codificación las apoya, o usuarios pueden escribirlos mientras que las referencias numéricas del carácter basadas en el punto de código de Unicode del carácter. Por ejemplo, las referencias Δ, Й, ק, م, , , , , y (o los mismos valores numéricos expresados en hexadecimal, con &#x como la exhibición del prefijo) en los browsers como Δ, Й, ק, م, あ, 叶, 葉, y 말.

Al especificar URIs, por ejemplo como URLs en HTTP las peticiones, caracteres no-ASCII deben ser por ciento-codificado.

Fuentes

Libere y venda al por menor fuentes se basan en Unicode comúnmente disponible, desde entonces TrueType y OpenType ayuda Unicode. Estos formatos de la fuente traz puntos de código de Unicode a los glyphs.

Millares de fuentes exista en el mercado, pero menos que las fuentes una docena - descritas a veces como fuentes de la “cacerola-Unicode” - procuran apoyar a la mayoría del repertorio del carácter de Unicode. En lugar, Unicode-basado fuentes céntrese típicamente en el soporte solamente del ASCII básico y las escrituras o los sistemas particulares de caracteres o de símbolos. Varias razones justifican este acercamiento: los usos y los documentos necesitan raramente rendir caracteres de más de uno o dos sistemas que escriben; las fuentes tienden para exigir recursos en ambientes que computan; y los sistemas operativos y los usos demuestran inteligencia de aumento en vista de la obtención de la información del glyph de archivos de fuente separados según lo necesitado, es decir. substitución de la fuente. Además, diseñar un sistema constante de rendir las instrucciones para los diez de millares de glyphs constituye una tarea monumental; tal empresa pasa el punto de vueltas que disminuyen para la mayoría de las tipografías.

Ediciones

Críticas filosóficas y de lo completo

Unificación de Han (la identificación de formas en los tres Idiomas asiáticas del este cuál uno puede tratar como variaciones estilísticas del mismo carácter histórico) tiene convertido de los aspectos más polémicos de Unicode, a pesar de la presencia de una mayoría de expertos de las tres regiones en Grupo Ideographic del ponente (IRG), que aconseja el consorcio y la ISO en adiciones al repertorio y en la unificación de Han.[15]

Unicode se ha criticado para que el no poder tenga en cuenta más viejas y alternativas formas de kanji cuál, los críticos discuten, complica el proceso de nombres japoneses japoneses e infrecuentes antiguos, aunque sigue las recomendaciones de los eruditos japoneses de la lengua y del gobierno japonés y contiene todos los mismos caracteres que estándares de codificación ampliamente utilizados anteriores.[16] Ha habido varias tentativas de crear las codificaciones alternativas que preservan las diferencias de menor importancia, estilísticas entre los caracteres chinos, japoneses, y coreanos en la oposición a la política de Unicode de la unificación de Han. Entre ellos esté TRON (aunque no se adopta extensamente en Japón, hay algunos usuarios que necesitan manejar el texto japonés histórico y favorecerlo), y UTF-2000.

Muchas más viejas formas no fueron incluidas en las versiones tempranas del estándar de Unicode, pero Unicode 4.0 contiene más de 70.000 caracteres y el trabajo de Han continúa en la adición de caracteres de la literatura temprana de China, de Corea, y de Japón. Algunos discuten, sin embargo, que esto no sea satisfactorio, precisando pues un ejemplo la necesidad de crear los nuevos caracteres, representando redacta en vario Dialectos chinos, más de que se pueden inventar en el futuro.

A pesar de estos problemas, la codificación oficial de China, GB-18030, apoya la gama completa de caracteres en Unicode.

El traz a los juegos de caracteres de la herencia

Injective los mappings se deben proporcionar entre los caracteres en juegos de caracteres existentes de la herencia y los caracteres en Unicode para facilitar la conversión a Unicode y para permitir interoperabilidad con software de la herencia. Carencia de la consistencia en varios mappings entre codificaciones japonesas anteriores por ejemplo Cambie de puesto-JIS o EUC-JP y Unicode condujo a conversión ida-vuelta del formato uniones mal hechas, particularmente el traz del carácter JIS X 201 “~” (1-33, ROCIADA de la ONDA), muy usado en datos de la base de datos de la herencia, o a TILDE DE ANCHO TOTAL de U+FF5E del “~” (en Microsoft Windows) o ROCIADA de la ONDA de U+301C del “〜” (otros vendedores).[17]

Algunos informáticos japoneses se opusieron a Unicode porque él los requieren separar el uso del “\” SOLIDUS REVERSO de U+005C (backslash) y '¥'los YENES U+00A5 FIRMAN, que traz a 0x5C en JIS X 0201, y hay muchos del código de la herencia con este uso.[18] (Esta codificación también substituye el tilde “~” 0x7E por el overline “¯”, ahora 0xAF.) la separación de estos caracteres existe en ISO 8859-1, mucho antes de que de Unicode.

Escrituras del indicador

Alfabeto tailandés la ayuda se ha criticado para su ordenar ilógica de caracteres tailandeses. El เ de las vocales, แ, โ, ใ, ไ que se escribe a la izquierda de la consonante precedente está en orden visual en vez de orden lógica, desemejante de las representaciones de Unicode de otras escrituras del indicador. Esta complicación es debido a la herencia de Unicode Estándar industrial tailandés 620, que trabajó de la misma forma. Esta pedir problema complica el proceso de la colación de Unicode levemente, requiriendo operaciones de búsqueda de tabla reordenar los caracteres tailandeses para la colación.[16]

Escrituras del indicador por ejemplo Tamil y Devanagari son puntos de cada los solamente 128 código asignados, el emparejar ISCII estándar. La representación correcta del texto del indicador de Unicode requiere transformar los caracteres almacenados de la orden lógica en orden visual y la formación de ligatures fuera de componentes. Algunos eruditos locales discutieron a favor de las asignaciones de los codepoints de Unicode a estos ligatures, yendo contra la práctica para otros sistemas de la escritura, aunque Unicode contiene un cierto árabe y otros ligatures para los propósitos traseros de la compatibilidad solamente.[19][20][21] La codificación de ninguna ligatures nueva en Unicode no sucederá, en parte porque el sistema de ligatures es fuente-dependiente, y Unicode es una independiente de codificación de las variaciones de la fuente. La misma clase de edición se presentó para Escritura tibetana (la organización de estándar nacional china no podida para alcanzar un cambio similar).

Vea también

Notas

Referencias

Acoplamientos externos

Encuentre más sobre Unicode en los proyectos de la hermana de Wikipedia:
Definiciones de diccionario
Libros de textos
Citas
Textos originales
Imágenes y medios
Historias de las noticias
Recursos que aprenden

The original article is from Wikipedia. To view the original article please click here.
Creative Commons Licence