Java I18n Basics

I18n

Locale

LanguageISO 639

http://ftp.ics.uci.edu/pub/ietf/http/related/iso639.txt

CountryISO 3166

http://www.iso.org/iso/country_codes/iso_3166_code_lists/english_country_names_and_code_elements.htm

Variant

pt_BR = Português, Brasil

pt_BR_PE = Português, Brasil,

Pernambuco

Números

Datas

Surpresas

Resource Bundle

JSP

JSTL fmt

javadoc

http://java.sun.com/products/jsp/jstl/1.1/docs/tlddocs/fmt/tld-summary.html

Struts bean

javadoc

http://struts.apache.org/1.3.8/struts-taglib/tlddoc/bean/tld-summary.html

Grails tag message

javadoc

http://www.grails.org/Tag+-+message

Charsets

Unicode é um conjunto universal de caracteres, um padrão que define, em um único lugar, todos os caracteres necessários para escrever na maioria dos idiomas vivos usados nos computadores

Arabic Greek Khmer Runic

Armenian Gujurati Lao Sinhala

Bengali Gurmukhi Latin Tamil

Cherokee Hangul Mongolian Telugu

Cyrillic Hebrew Tibetan Thaana

Devanagari Ethiopic Georgian etc...

primeiros 65,536 códigos = Basic Multilingual Plane

próximos 65,536 códigos = supplementary characters

atualmente catalogados mais de

cem mil caracteres

character set ≠ character encoding

character set é um conjunto de caracteres para os quais cada caractere é representado por um único número

‘à’ = 255 Unicode

character encodingreflete o modo como os caracteres são mapeados para bytes para que o computador possa entende-los

ISO-8859-1 = Latin 1

ISO-8859-1 não é Unicode

ISO-8859-1 abandonado em 2004...

... em favor do UTF-8

UTF-8 é Unicode

Escolhendo um Encoding

Unicode

Unicode

Unicode

Unicode

Um encoding baseado no Unicode pode

suportar muitas linguagens

acomodar páginas e formulários que misturem essas

linguagens

?

Marcos [email protected]

http://marcospereira.wordpress.com

Technology

Java I18n Basics