- Padrões de codificação de caráteres
Uma codificação de caracteres é um padrão de relacionamento entre um conjunto de caracteres (representações de grafemas ou unidades similares a grafemas como as que compõem um alfabeto ou silabário utilizados na comunicação através de uma linguagem natural) com um conjunto de outra coisa, como por exemplo números ou pulsos elétricos com o objetivo de facilitar o armazenamento de texto em computadores e sua transmissão através de redes de telecomunicação. Convencionalmente, conjunto de caracteres e codificação de caracteres eram considerados sinônimos, já que o mesmo nome poderia especificar tanto quais caracteres estão disponíveis e como eles foram codificados em um fluxo de unidades de código (normalmente com um único caractere por unidade de código). No entanto, o Unicode afastou essa ideia, separando a ideia de numerar uma série de caracteres de codificar esses caracteres em um fluxo de unidades de código. Para manter as nomenclaturas históricas e os sistemas baseados nelas, usa-se o termo charset para se referir a uma codificação de caracteres.
- Tabela de código ASCII e a de código Unicode
Código ASCII
ASCII, do inglês American Standard Code for Information Interchange, é o Código Padrão Americano para o Intercâmbio de Informação. Trata-se de um código binário (cadeias de bits: 0s e 1s) que codifica um conjunto de 128 sinais: 96 sinais gráficos (letras do alfabeto latino, sinais de pontuação e sinais matemáticos) e 32 sinais de controle. Cada código binário possui 8 bits ( = 1 byte ): 7 bits para o propósito de codificação e 1 bit de paridade (detecção de erro).
A codificação ASCII é usada para representar textos em computadores, equipamentos de comunicação, entre outros dispositivos que trabalham com texto. Desenvolvida a partir de 1960, grande parte das codificações de caracteres modernas a herdaram como base.
Os sinais não-imprimíveis, conhecidos como caracteres de controle, são amplamente utilizados em dispositivos de comunicação e afetam o processamento do texto.
Código Unicode
Unicode é um padrão de codificação de caracteres destinados a facilitar o processamento do computador, transmissão e exibição de textos em várias línguas e disciplinas técnicas, além de textos clássicos de línguas antigas . Unicode têm três características: universalidade, uniformidade e unicidade.
Este código especifica um nome único e identificador numérico para cada caracterer ou símbolo, o ponto de código (fonte pontual), e outras informações necessárias para o uso correto: direcionalidade, capitalização e outros atributos.