El problema informàtic
Introducció
El problema informàtic te l'origen en la manca d'una codificació ben definida per al grup de la ela geminada. Aquesta manca de codificació estàndard té un conjunt de conseqüències que anirem desgranant en aquest document.
Cal destacar que el grup de la ela geminada mai s'ha codificat amb un sol codi sinó que sempre s'ha fet com una seqüència de codis sigui quin sigui el sistema de codificació emprat.
En aquest apartat ens referirem únicament al marc que fixa Unicode v6, en endavant anomenat com Unicode, que és l'estàndard de codificació informàtica per als caràcters emprat actualment de forma majoritària.
Diversitat de codificacions
Com ja s'ha dit, hi ha una diversitat de codificacions possibles per a la ela geminada. Limitant-nos al marc d'Unicode i solament pel cas de les minúscules en comptem les següents variants, totes elles vistes en un o altre document:
Combinació |
Codificació Unicode |
Comentari |
l·l |
l U+00B7 l |
És la combinació preferida, amb middle dot |
l.l |
l . l |
Amb un punt ordinari |
l-l |
l - l |
Amb un guionet |
l•l |
l U+2022 l |
Amb un pic fent de punt volat |
l⋅l |
l U+22C5 l |
Amb l'operador de producte |
l·l |
U+013F l |
Amb la «mitja ela geminada». |
Un estudi fet a partir de l'anàlisi del contingut de la viquipèdia en català mostra la magnitud d'aquesta diversitat. (Falta referència).
Problemes que se'n deriven
La diversitat de codificacions comporta els següents problemes:
- **Problema tipogràfic o de la visualització.** Es deriva del fet que distintes codificacions es representen gràficament de diferents formes, la qual cosa és naturalment indesitjable des d'un punt de vista tipogràfic. Encara més, cap de les codificacions possibles actualment acostuma a tenir una representació tipogràficament correcta.
- **Problema de la igualtat.** La
- **Problema del comptatge.**
- **Problema de l'ordenació.**
- **Problema de**
Unicode
Latin script i Catalan Language
Codepoint
Cadascún dels enters que codifica un caràcter Unicode.
Seqüències equivalents
Unicode defineix quines seqüències de code-points equivalen a quins code-points concrets. Vegeu apartat 2.12 i apartat 3.7 de l'estàndard. En particular això permet transformar els textos a la forma normalitzada preferida d'Unicode quan hi ha diverses possibilitats de codificació.
Caràcters combinables
(apartat 2.11 Unicode) Hi ha caràcters pensats per a ésser combinats amb altres caràcters (caràcters base). Aquest és el cas dels accents i altres elements. Unicode sempre posa el caràcter combinable darrera del caràcter base. Per exemple:
ü -> u + ¨
Clúster grafema
Unicode defineix el concepte de clúster-grafema que es correspon a un caràcter base més una seqüència de caràcters combinables que, en un llenguatge concret, forma una unitat indissociable (que mai es trenca). Sovint això és percebut pels usuaris com un caràcter. Aquest concepte està relacionat amb el de segmentació, que es tracta a l'annex 29 d'Unicode.
Aquesta discussió deixa ben clara la existència de dos conceptes de caràcter, el que fa referència a Unicode i el que perceben els usuaris.
Seqüències equivalents i normalitació
En cas que dues o més seqüències es considerin equivalents, Unicode no en prescriu cap com a correcta (pp. 46 Unicode).
Defineix dos tipus de seqüències equivalents:
- Canònicament equivalents. Quan ambdues seqüències es visualitzen idènticament i s'interpreten de la mateixa manera
- Compatibles. Quan les seqüencies, tot i considerar-se equivalents en certs contextos, no s'han de visualitzar necessàriament igual o interpretar-se de la mateixa manera sempre.
**Les aplicacions informàtiques, segons Unicode, no han de fer distincions entre seqüències canonicament equivalents**.
Sobre la ela geminada i el català
pp. 208
- Compatibility Digraphs. The Latin Extended-A block contains five compatibility digraphs, encoded for compatibility with ISO/IEC 6937:1984. Two of these characters, U+0140 latin small letter l with middle dot and its uppercase version, were originally encoded in ISO/IEC 6937 for support of Catalan. In current conventions, the representation of this digraphic sequence in Catalan simply uses a sequence of an ordinary “l” and U+00B7 middle dot.