|
 |
om a difusão da Informática, a representação
da escrita no computador tornou-se um problema complexo, pois é
preciso dar suporte a inúmeros sistemas de escrita, cada um com suas
peculiaridades. Várias soluções surgiram ao longo do desenvolvimento
da computação e aqui vamos falar das mais relevantes.
A primeira tabela ASCII
Basicamente, computadores armazenam números
e para armazenar texto na sua memória, é preciso converter os
grafemas em números. Por exemplo: a memória do computador, não
armazena a letra A, mas o número 65. No início do desenvolvimento
dos computadores, as soluções para tratar texto privilegiavam o
idioma inglês. A primeira tabela ASCII (American standard code for
information interchange) fazia uma correspondência entre números e
os grafemas básicos da ortografia inglesa. Essa tabela alcançava até
o número 127, o que corresponde a um código de 7 bits, pois
computadores operam com o sistema binário de contagem, e convertido
em notação binária, 127 equivale a um número de 7 dígitos.
A primeira tabela ASCII funcionava bem para
tratar textos em inglês, mas deixava a desejar na representação de
textos em português, por exemplo, pois não considerava os grafemas
com diacríticos da nossa ortografia como: á, é, ô, ç, ü, etc.
Tabelas ASCII estendidas
Com o tempo, a tabela ASCII foi expandida
até o número 255. Em notação binária, isso corresponde a um número
com 8 dígitos e, por isso, ela é considerada um código de 8 bits.
Uma tabela ASCII estendida tem todos os caracteres considerados pela
tabela anterior de 7 bits, mais uma expansão que resolveu vários
problemas de representação como, por exemplo, os grafemas com
diacríticos da língua portuguesa.
Embora a tabela ASCII de 8 bits seja mais
ampla que sua antecessora e atenda às necessidades de representação
em computador de um idioma como o português, ainda assim, alguns
problemas persistem. A tabela ASCII estendida não permite acomodar
ao mesmo tempo os grafemas do sistema latino e de outros sistemas
como o cirílico, grego, hebraico, etc. Em função disso, foram
criadas várias tabelas ASCII de 8 bits, cada uma delas adaptada às
necessidades de uma ortografia específica.
Veja uma das tabelas ASCII estendidas,
conhecida como ISO 8859-1 ou Latim I.
Unicode
O padrão Unicode é definido pela Unicode
Consortium (www.unicode.org),
instituição sem fins lucrativos que se propõe a desenvolver um
sistema abrangente e padronizado de representação de escrita em
computadores.
No padrão Unicode, cada caractere está
associado a um número identificador único. A tabela Unicode abrange
os mais variados sistemas de escrita como latino, grego, cirílico,
hebraico, árabe, japonês, chinês, etc., além de considerar símbolos
matemáticos, musicais, de moeda, etc. Em função da variedade de
caracteres que apresenta, a tabela Unicode é subdividida em blocos.
Veja alguns blocos Unicode, clicando nos links a seguir.
O primeiro bloco da tabela Unicode (Latim
básico) equivale exatamente à tabela ASCII de 7 bits.
Os blocos Extensões IPA, Letras
Modificadoras de Espaçamento e Sinais Diacríticos
Combinados são de especial interesse dos lingüistas porque
trazem a simbologia do Alfabeto Fonético Internacional.
O padrão Unicode considera um número elevado
de caracteres. Seus identificadores são números binários de 16
dígitos e, por isso, o Unicode é considerado um código de 16 bits. A
versatilidade do Unicode tem um custo, que é justamente o consumo
maior de memória. Enquanto na primeira tabela ASCII, cada caractere
estava associado a um número de 7 bits, no padrão Unicode cada
caractere armazenado consome 16 bits de memória.
O Unicode tem sido adotado maciçamente pela
indústria de software, o que o torna o padrão para representação de
escrita em computadores.
SAMPA
O padrão Sampa (Speech Assessment Methods
Phonetic Alphabet) é uma alternativa para representar em computador
transcrições como a da IPA, quando se dispõe apenas dos caracteres
da tabela ASCII de 7 bits. No padrão Sampa, fonemas do AFI, por
exemplo, são representados por uma combinação de grafemas da tabela
ASCII básica. Por exemplo:
|
Vogal oral, frontal, semi-fechada,
não arredondada |
|
E |
|
Vogal oral, frontal, semi-fechada,
arredondada |
|
9 |
|
Diacrítico indicador de duração
longa |
|
: |
|
Consoante velar lateral
aproximante |
|
L\ |
|
Vogal oral, central, semi-fechada,
não arredondada |
|
@\ |
Essa solução pode ser útil em casos como o
envio de transcrições por e-mail quando o serviço só opera com
caracteres da tabela ASCII 7 bits.
Existem tabelas Sampa para vários idiomas,
inclusive português. Além disso, existe uma tabela Sampa estendida,
chamada X-Sampa, orientada para a representação do Alfabeto Fonético
Internacional.
|
_ |