domingo, 11 de julio de 2010

Macrón - Macron




Macrón

De Wikipedia, la enciclopedia libre



Un macrón (del griego μακρός makros "largo") es el diacrítico ¯ situado sobre una vocal para indicar que la vocal es larga. Tiene un significado opuesto al breve ˘, usado para indicar una vocal corta. Estas distinciones son usualmente fonémicas.

Caracteres que usan macrón
Mayúscula Minúscula
Carácter Código HTML Unicode Carácter Código HTML Unicode
Ā Ā U+0100 ā ā U+0101
Ǣ Ǣ U+01E2 ǣ ǣ U+01E3
Ē Ē U+0112 ē ē U+0113
Ī Ī U+012A ī ī U+012B
Ō Ō U+014C ō ō U+014D
Ū Ū U+016A ū ū U+016B
Ǖ Ǖ U+01D5 ǖ ǖ U+01D6
Ȳ Ȳ U+0232 ȳ ȳ U+0233

Por ejemplo, en latín ambulāre significa "andar" y la primera "a" suena diferente de la segunda.

También se usa en física de partículas para diferenciar las partículas de las antipartículas, por ejemplo protón p y antiprotón p


Macron

From Wikipedia, the free encyclopedia


Ā ā
Ǟ ǟ
Ǡ ǡ
Ǣ ǣ
Ē ē
Ī ī
Ō ō
Ȫ ȫ
Ǭ ǭ
Ȭ ȭ
Ȱ ȱ
Ū ū
Ǖ ǖ
Ȳ ȳ

A macron, from the Greek μακρόv (makrón), meaning "long", is a diacritic placed above a vowel (and, more rarely, under or above a consonant). It was originally used to mark a long syllable in Græco-Roman metrics, but now also indicates that the vowel is long. (This is the opposite of a breve ˘, used to indicate originally a short syllable and now also a short vowel.) Distinctions between long and short vowels are often phonemic. In the International Phonetic Alphabet the macron is used to indicate mid tone; the sign for a long vowel is a modified triangular colon.

Contents

[hide]

[edit] Syllable weight

In Græco-Roman metrics and in the description of the metrics of other literatures, the macron was introduced and is still widely used to mark a long (i.e., heavy) syllable. Even the best and relatively recent classical Greek and Latin dictionaries[1] are still only concerned with indicating the length (i.e., weight) of syllables; that is why most still do not indicate the length of vowels in syllables that are otherwise metrically determined. Though many textbooks about ancient Rome and Greece employ the macron, it was not actually used at that time.

[edit] Vowel length

The following languages or transliteration systems use the macron to mark long vowels:

  • Slavicists use the macron to indicate a non-tonic long vowel, or a non-tonic syllabic liquid, such as on l, lj, m, n, nj, and r. Languages with this feature include standard and jargon varieties of Serbian, Croatian, Macedonian[citation needed], Slovak[citation needed], Bulgarian.[2]
  • Transcriptions of Arabic typically use macrons to indicate long vowels — ا (alif when pronounced as /aː/), و (waw, when pronounced as /uː/), and ي (ya', when pronounced as /iː/). Thus the Arabic word ثلاثة (three) is transliterated ṯalāṯah.
  • Some modern dictionaries of classical Greek and Latin, where the macron is sometimes used in conjunction with the breve. However, many such dictionaries still have ambiguities in their treatment and distinction of long vowels or heavy syllables.
  • The Hepburn romanization system of Japanese. Examples: kōtsū (交通) "traffic" as opposed to kotsu () "bone" or "knack" (fig.)
  • Latvian. "Ā", "ē", "ī", "ū" are separate letters that sort in alphabetical order immediately after "a", "e", "i", "u" respectively. Ō was also used in Latvian, but it was discarded as of 1957.
  • Lithuanian. "Ū" is a separate letter but given the same position in collation as the unaccented "u". It marks a long vowel; other long vowels are indicated with an ogonek (which used to indicate nasalization, but no longer does): "ą", "ę", "į", "ų", "o" being always long in Lithuanian except for some recent loanwords. For the long counterpart of "i", "y" is used.
  • Transcriptions of Nahuatl (spoken in Mexico). Since Nahuatl (Nāhuatl) (Aztecs' language) did not have a writing system, when Spanish conquistadors arrived, they wrote the language in their own alphabet without distinguishing long vowels. Over a century later, in 1645, Horacio Carochi defined macrons to mark long vowels ā, ē, ī and ō, and short vowels with grave (`) accents. This is rare nowadays since many people write Nahuatl without any orthographic sign and with the letters /k/, /s/ and /w/, not present in the original alphabet. Some projects prefer macron-based writing, as in Nahuatl Wikipedia.
  • Modern transcriptions of Old English.
  • Latin transliteration of Pali and Sanskrit.
  • Polynesian languages:
    • Hawaiian. The macron is called kahakō, and it indicates vowel length, which changes meaning and the placement of stress.
    • Māori. Early writing in Māori did not distinguish vowel length. Some — notably Professor Bruce Biggs[3] — have advocated that double vowels be written to mark long vowel sounds (e.g., Maaori), but he was more concerned that they be marked at all than with the method. The Māori Language Commission (Te Taura Whiri o te Reo Māori) advocates that macrons be used to designate long vowels. The use of the macron is widespread in modern Māori, although sometimes the diaeresis mark is used instead (e.g. "Mäori" instead of "Māori") if the macron is not available for technical reasons [1]. The Māori words for macron are pōtae "hat", or tohuto.
    • Tongan. Called the toloi, its usage is similar to that in Māori, including its substitution by a diaeresis.

[edit] Tone

The following languages or alphabets use the macron to mark tones:

  • In Pinyin, macrons are used over a, e, i, o, u, ü (ā, ē, ī, ō, ū, ǖ) to indicate the first tone of Mandarin Chinese. The alternative to macron is the number 1 after the syllable, e.g. tā = ta1.

[edit] Other uses

  • In some German handwriting the a macron is used to distinguish u from n or instead of the umlaut.
  • In some Finnish and Swedish comic books that are hand-lettered, or in handwriting, the macron is used instead of ä or ö, sometimes known colloquially as a "lazy man's umlaut".
  • In older handwriting such as the German Kurrentschrift, the macron over an a-e-i-o-u or ä-ö-ü stood for an n, or over an m or an n meant that the letter was doubled. This continued into print in English in the sixteenth century. Over a u at the end of a word, the macron indicated um as a form of scribal abbreviation.
  • In Russian handwriting, a lowercase Т looks like a lowercase m, and a macron is often used to distinguish it from Ш, which looks like a lowercase w. Some writers also underline the letter ш to reduce ambiguity further.
  • In music, the tenuto marking resembles the macron.

[edit] Non-diacritical usage

  • In medical prescriptions and other handwritten notes, macrons mean:
    • over c, with, abbreviating the Latin word cum;
    • over p, after, abbreviating post;
    • over q, every, abbreviating quisque (inflected forms: quoque/quaque);
    • over s, without, abbreviating sine;
    • over x, except, formed by analogy, and not specifically from any Latin.
  • In statistics, mathematics and physics the macron is often used to indicate:
    • x̄ a mean (e.g., \bar{x} as the average value of xi)
  • In mathematics it may denote:
    • the conjugate of a complex number, so that if x = a + ib, then \overline{x} = a - ib.
  • In mathematics and physics it may denote:
    • A vector, so that \overline x=|x|\hat x, although boldface and arrows commonly are also used.
  • In Old English texts a macron above a letter indicates the omission of an m or n that would normally follow that letter.

[edit] Technical notes

In Unicode, "combining macron" is a combining character with the code U+0304 (in HTML, ̄ or ̄). This is different from the "macron" at U+00AF ¯, from the "modifier letter macron" at U+02C9 ˉ and from the combining overline at U+0305 ̅. There are several precomposed characters; their HTML/Unicode numbers are as in the table below. In LaTeX a macron is created with the command "\=", for example: M\=aori.

The row before the last is the letter Uu with diaeresis (Ü ü) and macron, used in pinyin. The final row is the letter Yy with macron, used sometimes in teaching Old English and Latin.

additional
diacritic
character Unicode HTML
Latin
Ā
ā
U+0100
U+0101
Ā
ā
Ē
ē
U+0112
U+0113
Ē
ē
Ī
ī
U+012A
U+012B
Ī
ī
Ō
ō
U+014C
U+014D
Ō
ō
Ū
ū
U+016A
U+016B
Ū
ū
Ȳ
ȳ
U+0232
U+0233
Ȳ
ȳ
Ǣ
ǣ
U+01E2
U+01E3
Ǣ
ǣ

U+1E20
U+1E21

diaeresis Ǟ
ǟ
U+01DE
U+01DF
Ǟ
ǟ
Ȫ
ȫ
U+022A
U+022B
Ȫ
ȫ
Ǖ
ǖ
U+01D5
U+01D6
Ǖ
ǖ

U+1E7A
U+1E7B

dot above Ǡ
ǡ
U+01E0
U+01E1
Ǡ
ǡ
Ȱ
ȱ
U+0230
U+0231
Ȱ
ȱ
dot below
U+1E38
U+1E39


U+1E5C
U+1E5D

ogonek Ǭ
ǭ
U+01EC
U+01ED
Ǭ
ǭ
tilde Ȭ
ȭ
U+022C
U+022D
Ȭ
ȭ
acute
U+1E16
U+1E17


U+1E52
U+1E53

grave
U+1E14
U+1E15


U+1E50
U+1E51

Cyrillic
Ӣ
ӣ
U+04E2
U+04E3
Ӣ
ӣ
Ӯ
ӯ
U+04EE
U+04EF
Ӯ
ӯ
Greek

U+1FB9
U+1FB1


U+1FD9
U+1FD1


U+1FE9
U+1FE1

[edit] See also

The basic modern Latin alphabet
Aa Bb Cc Dd Ee Ff Gg Hh Ii Jj Kk Ll Mm Nn Oo Pp Qq Rr Ss Tt Uu Vv Ww Xx Yy Zz
Letters using macron sign
ĀāĒēḠḡĪīŌōŪūȲȳǢǣ

history palaeography derivations diacritics punctuation numerals Unicode list of letters ISO/IEC 646

[edit] References

  1. ^ P.G.W. Glare (ed.), Oxford Latin Dictionary (Oxford at the Clarendon Press 1990), p. xxiii: Vowel quantities. Normally only long vowels in a metrically indeterminate position are marked.
  2. ^ Годечкият Говор от Михаил Виденов,Издателство на българската академия на науките,София, 1978, p. 19: ...характерни за всички селища от годечкия говор....Подобни случай са характерни и за книжовния език-Ст.Стойков, Увод във фонетиката на българския език , стр. 151.. (Russian)
  3. ^ Yearbook of the Academy Council - 2000, Royal Society of New Zealand
  4. ^ A grammar of the Kokota language, Santa Isabel, Solomon Islands A PhD dissertation by Bill Palmer.

[edit] External links

This page was last modified on 7 July 2010 at 08:52.

En otros idiomas







free counters

Codificación del carácter - www.worldlingo.com






Codificación del carácter

Los “caracteres especiales” vuelven a dirigir aquí. Para el uso de caracteres especiales en Wikipedia, vea Wikipedia: Caracteres especiales.

A codificación del carácter consiste en a código eso aparea una secuencia de caracteres del dado juego de caracteres (referido a veces como cifre la página) con algo más, tal como una secuencia de natural números, octetos o pulsos eléctricos, para facilitar almacenaje de texto en computadoras y la transmisión del texto a través de redes de telecomunicación. Los ejemplos comunes incluyen Código Morse, que codifica letras del Alfabeto latino como serie de depresiones largas y cortas de a llave del telégrafo; y ASCII, que codifica letras, números, y otros símbolos, como números enteros.

En días anteriores de computar, la introducción de juegos de caracteres cifrados por ejemplo ASCII (1963) y EBCDIC (1964) comenzó el proceso de la estandardización. Las limitaciones de tales sistemas pronto llegaron a ser evidentes, y un número ad hoc los métodos se convirtieron para extenderlos. La necesidad de apoyar múltiplo sistemas de la escritura (Idiomas), incluyendo CJK familia de las escrituras asiáticas del este, ayuda requerida para un número lejos más grande de caracteres y exigido un acercamiento sistemático al carácter que codifica más bien que los acercamientos ad hoc anteriores.

Contenido

Juegos de caracteres simples

La codificación convencionalmente del juego de caracteres y del carácter era considerada sinónima, pues el mismo estándar especificaría ambos qué caracteres estaban disponibles y cómo debían ser codificados en una corriente de las unidades del código (generalmente con un solo carácter por unidad del código). Por razones históricas, MIME y los sistemas basados en él utilizan el término charset para referir al sistema completo para codificar una secuencia de caracteres en una secuencia de octetos.

Modelo de codificación moderno

Unicode y su estándar paralelo, ISO 10646 Juego de caracteres universal, que juntos constituyen la codificación más moderna del carácter, se rompió lejos de esta idea, y en lugar de otro separó las ideas de qué caracteres están disponibles, su enumeración, cómo se codifican esos números como una serie de “unidades del código” (los números del limitado-tamaño), y finalmente cómo esas unidades se codifican como corriente de los octetos (octetos). La idea detrás de esta descomposición es establecer un sistema universal de los caracteres que se pueden codificar en una variedad de maneras. Describir correctamente este modelo necesita términos más exactos que “juego de caracteres” y el “carácter que codifica”. Los términos usados en el modelo moderno siguen:

A repertorio del carácter es el sistema completo de los caracteres abstractos que un sistema apoya. El repertorio puede ser cerrado, ésa no es ninguna adición se permite sin crear un nuevo estándar (al igual que el caso con el ASCII y la mayor parte de la serie ISO-8859), o puede estar abierto, permitiendo adiciones (al igual que el caso con Unicode y a un grado limitado Páginas del código de Windows). Los caracteres en un repertorio dado reflejan las decisiones que se han tomado sobre cómo dividir sistemas de la escritura en unidades de información lineares. Las variantes básicas del Latino, Griego, y Alfabetos cirílicos, puede ser analizado en letras, dígitos, la puntuación, y algunas caracteres especiales como el espacio, que puede todos ser arreglado en las secuencias lineares simples que se exhiben en la misma orden se leen. Iguale con estos alfabetos sin embargo signos diacríticos plantee una complicación: pueden ser mirados o como parte de un solo carácter que contiene una letra y un signo diacrítico (sabidos en terminología moderna como a precomposed el carácter), o como caracteres separados. El anterior permite un sistema de tramitación lejos más simple de texto pero el último permite cualquier letra/combinación diacrítica que se utilizarán en texto. Otros sistemas de la escritura, tales como árabe y hebreo, se representan con repertorios más complejos del carácter debido a la necesidad de acomodar cosas como el texto bidireccional y glyphs eso se ensambla junto de diversas maneras para diversas situaciones.

A juego de caracteres cifrado especifica cómo representar un repertorio de los caracteres que usan un número de códigos no negativos del número entero llamados puntos de código. Por ejemplo, en un repertorio dado, un carácter que representaba la mayúscula “A” en el alfabeto latino se pudo asignar al número entero 65, el carácter para “B” a 66, y así sucesivamente. Un sistema completo de caracteres y de números enteros correspondientes es un juego de caracteres cifrado. Los juegos de caracteres cifrados múltiples pueden compartir el mismo repertorio; por ejemplo ISO-8859-1 y el código de IBM pagina 037 y 500 todos cubren el mismo repertorio pero traz los a diversos códigos. En un juego de caracteres cifrado, cada punto de código representa solamente un carácter.

A forma de codificación del carácter (CEF) especifica la conversión de los códigos del número entero de un juego de caracteres cifrado en un sistema del número entero del limitado-tamaño valores de código eso facilita almacenaje en un sistema que represente números en forma binaria usando un número fijo de pedacitos (es decir. prácticamente cualquier sistema informático). Por ejemplo, un sistema que almacena la información numérica en 16 unidades del pedacito podría solamente representar directamente números enteros a partir de la 0 a 65.535 en cada unidad, pero números enteros más grandes se podrían representar si más de una unidad de 16 pedacitos podría ser utilizado. Éste es un qué CEF acomoda: define una manera de traz solo código punto de una gama de, por ejemplo, 0 a 1.4 millones, a una serie de uno o más código valores de una gama de, por ejemplo, 0 a 65.535.

El sistema más simple de CEF es simplemente elegir bastante grandes unidades que los valores del juego de caracteres cifrado pueden ser codificados directamente (un punto de código a un valor de código). Esto trabaja bien para los juegos de caracteres cifrados que caben en 8 pedacitos (como lo hacen la mayoría de las codificaciones del non-CJK de la herencia) y para los juegos de caracteres cifrados que para caber razonablemente bien en 16 pedacitos (tales como versiones tempranas de Unicode). Sin embargo, como el tamaño del juego de caracteres cifrado aumenta (e.g. Unicode moderno requiere por lo menos 21 pedacitos/carácter), éste llega a ser cada vez menos eficiente, y es difícil adaptar sistemas existentes para utilizar valores de código más grandes. Por lo tanto, la mayoría de los sistemas que trabajan con versiones más últimas de Unicode utilizan cualquiera UTF-8, que traz puntos de código de Unicode a las secuencias variable-length de octetos, o UTF-16, que traz puntos de código de Unicode a las secuencias variable-length de 16 palabras del pedacito.

Después, a esquema de codificación del carácter (CES) especifica cómo los códigos de tamaño fijo del número entero se deben traz en una secuencia del octeto conveniente para ahorrar en un sistema de ficheros octeto-basado o un excedente que transmite una red octeto-basada. Con Unicode, un esquema de codificación del carácter simple se utiliza en la mayoría de los casos, especificando simplemente si los octetos para cada número entero deben estar en grandeendian o pequeña-endian orden (incluso esto no se necesita con UTF-8). Sin embargo, hay también los esquemas de codificación del carácter compuesto, que utilizan semencias de escape para cambiar entre varios esquemas simples (por ejemplo ISO 2022), y los esquemas de compresión, que intentan reducir al mínimo el número de octetos utilizó por unidad del código (por ejemplo SCSU, BOCU, y Punycode).

Finalmente, puede haber a protocolo de alto nivel cuál provee la información adicional que se puede utilizar para seleccionar la variante particular de a Unicode carácter, particularmente donde hay las variantes regionales que “se han unificado” en Unicode como el mismo carácter. Un ejemplo es el xml de la cualidad de XML: lang.

Historia de las codificaciones del carácter

Repertorios binarios tempranos:

Codificaciones populares del carácter

Herramientas de la conversión de carácter

Cruz-plataforma:

  • iconv - programa y API estandardizado para convertir codificaciones
  • convert_encoding.py - Utilidad basada Python para convertir archivos de texto entre las codificaciones y la línea arbitrarias conclusiones.[1]
  • decodeh.py - algoritmo y módulo heuristically para conjeturar la codificación de una secuencia [2]

Linux:

  • recodifique - convierta el contenido del archivo a partir de una codificación a otra [3]
  • utrac - contenido del archivo del convertido a partir de una codificación a otra.[4]
  • cstocs - contenido del archivo del convertido a partir de una codificación a otra
  • convmv - convierta un nombre de fichero a partir de una codificación a otra.[5]
  • enca - analiza las codificaciones para los archivos de texto dados[6]

Windows:

  • cscvt - herramienta de la conversión del juego de caracteres[7]

Vea también

Referencias

  1. ^ Homepage de Michael Goerz - convert_encoding.py
  2. ^ decodeh - heuristically descifre un archivo de la secuencia o de texto
  3. ^ recodifique - proyecto del GNU - la fundación libre del software (el FSF)
  4. ^ Homepage de Utrac
  5. ^ convmv - nombres de fichero de los convertidos a partir de una codificación a otra
  6. ^ Analizador extremadamente ingenuo de Charset
  7. ^ Convertidor del juego de caracteres

Acoplamientos externos



The original work was translated from English to Spanish. To view the original article please click here.
Creative Commons Licence






free counters


Correo Vaishnava