Top 10 Articles

Zoophilia
Liste de prières et de bénédictions juives
Pastèque
Gmail
Saola
Odnoklassniki.ru
Xeroderma pigmentosum
La maladie de Minamata
Orkut
Liste de missions de maintien de la paix des Nations Unies

News:

ASCII prolongée

La limite ASCII prolongée (ou ASCII élevée) décrit de huit bits ou plus grand codages de caractère cela incluent les sept standardpeu ASCII caractères aussi bien que d'autres. L'utilisation de la limite est parfois critiquée, parce qu'il peut de manière erronée interpréter que la norme d'ASCII a été mise à jour pour inclure plus de 128 caractères ou que la limite identifie clairement un codage simple, qui sont faux.

Table des matières

Motifs pour se prolonger

Puisque le nombre de symboles écrits utilisés en commun langages naturels dépasse de loin la gamme limitée du code d'ASCII, beaucoup de prolongements à lui ont été employés pour faciliter la manipulation de ces langues. Les marchés pour les pays d'expression anglaise d'extérieur d'ordinateurs et de matériel de transmission étaient historiquement ouverts longtemps avant que les organismes de normalisation aient eu le temps pour délibérer sur la meilleure manière de leur adapter, tellement là sont beaucoup de prolongements de propriété industrielle incompatibles à l'ASCII.

Puisque l'ASCII est un code de sept-peu et la plupart des ordinateurs manoeuvrent des données dans de huit bits bytes, beaucoup de prolongements emploient les 128 codes additionnels disponibles en employant chacun des huit bits de chaque byte. Ceci aide à inclure beaucoup de langues autrement pas facilement représentables dans l'ASCII, mais à couvrir toujours pas assez toutes les langues des pays dans lesquels des ordinateurs sont vendus, si même ces prolongements de huit bits ont dû avoir des variantes locales.

Prolongements de propriété industrielle

Les divers prolongements de propriété industrielle sont apparus dessus nonEBCDIC unité centrale et mini-ordinateurs, particulièrement aux universités. Les micro-ordinateurs de Commodore ont ajouté beaucoup de symboles graphiques à leur ASCII non standard (PETSCII, basé sur le niveau original d'ASCII de 1963). IBM a présenté des codes prolongés de huit bits d'ASCII sur l'original PC D'IBM et variations produites postérieures pour différentes langues et cultures. IBM appelé de tels jeux de caractères codez les pages et des nombres assignés aux les deux ceux ils eux-mêmes ont inventé comme beaucoup inventés et employés par d'autres fabricants. En conséquence, des jeux de caractères sont très souvent indiqués par leur numéro de page de code d'IBM. En pages ASCII-compatibles de code, les 128 caractères inférieurs ont maintenu leurs valeurs standard d'US-ASCII, et différentes pages (ou ensembles de caractères) pourraient être rendus disponibles en 128 caractères supérieurs. DOS les ordinateurs construits pour le marché nord-américain, par exemple, ont employé codez la page 437, qui a inclus les caractères accentués ont eu besoin pour langues françaises, allemandes, et quelques autres européennes, aussi bien que quelques caractères de traçage de lignes graphiques. Le jeu de caractères plus grand a permis pour créer des documents dans une combinaison des langues comme Anglais et Français (bien que d'ordinateurs utilisation française habituellement codez la page 850), mais pas, par exemple, en anglais et Grec (qui a exigé la page 737 de code).

Digital Equipment Corporation a développé « un jeu de caractères multinational », qui a eu peu de caractères mais plus de combinaisons de lettre et de diacritique, basé sur des versions provisoires de OIN 8859. Il a été soutenu par VT220 et DEC postérieur terminaux d'ordinateur.

OIN 8859 et adaptations de propriété industrielle

Par la suite, OIN a libéré cette norme As OIN 8859 décrire son propre ensemble de prolongements de huit bits d'ASCII. Le plus populaire était OIN 8859-1, également appelé OIN Latin1, qui a contenu des caractères suffisamment pour les langues d'Europe occidentale les plus communes. Des variations ont été aussi bien normalisées pour d'autres langues : OIN 8859-2 pour des langues européennes orientales et OIN 8859-5 pour des langues cyrilliennes, par exemple.

Une manière notable dont les jeux de caractères d'OIN diffèrent des pages de code est que les positions d'impression 128 159, correspondant à l'ASCII caractères de commande avec l'ensemble de peu d'ordre élevé, sont spécifiquement inutilisée et non définie dans les normes de l'OIN, bien qu'ils aient été souvent employés pour les caractères imprimables en pages de propriété industrielle de code, une rupture des normes de l'OIN qui était presque universelle.

Microsoft plus tard a créé codez la page 1252, un superjeu compatible d'OIN 8859-1 avec les caractères supplémentaires dans la chaîne inutilisée d'OIN. La page 1252 de code est le codage standard de caractère des versions d'Europe occidentale de langue de Microsoft Windows, y compris des versions anglaises. OIN 8859-1 est le codage commun de caractère employé par X système de fenêtre, et les la plupart Internet normes. Apple Macintosh, dessous OS X d'imper, actuellement utilisations Unicode en tant que son codage de défaut. Sous OS d'imper, il a employé OS d'imper romain.

Confusion de jeu de caractères

Puisque ces prolongements d'ASCII ont tant de variantes, il est nécessaire d'identifier que réglé est employé pour un texte particulier pour qu'il soit interprété correctement. Cependant, parce que les caractères plus-utilisés (ceux dans l'ASCII, les points de code de sept-peu) sont communs à tous les ensembles--égalisez plus la classe des propriétaires ceux--le manque d'identifier correctement un jeu de caractères ne souffre souvent aucune conséquence défavorable si l'utilisateur introduit au clavier anglais. De plus, parce que beaucoup de normes d'Internet emploient OIN 8859-1, et parce que le Microsoft Windows (employant le superjeu 1252 de page de code d'OIN 8859-1) est le logiciel d'exploitation dominant pour des PC aujourd'hui, l'utilisation inattendue d'OIN 8859-1 est tout à fait banale, et devrait généralement être supposée sans évidence à l'effet contraire.

Dans beaucoup de protocoles, d'une manière plus importante E-mail et HTTP, le codage de caractère du contenu doit être étiqueté avec IANA- marques assignées de jeu de caractères.

Unicode

Une proposition a appelé Unicode a été fait dedans 1991 adresser plusieurs de ces problèmes, et est maintenant largement accepté. Unicode réserve 1.114.112 points de code (de = × 2 17 avions16 les points de code par avion), et assigne actuellement des caractères plus d'à 101.000 de ces points de code. Match le de 256 premier codes avec précision ceux de ISO-8859-1. La majorité des 96.000 points de code, actuellement, sont employées pour Chinois, Japonais et Coréen caractères.

Voyez également

Liens externes

The original article is from Wikipedia. To view the original article please click here.
Creative Commons Licence