'모종의 음모/다국어 지원' 카테고리의 글 목록

'모종의 음모/다국어 지원'에 해당되는 글 15건

2014.06.19 일본어 유니코드 2
2014.06.09 일본어 유니코드
2012.09.10 라틴 어군 관련 조사
2010.05.19 일본어 기본 폰트 및 유니코드 영역(히라가나,가타가나) 8
2010.04.30 Hebrew code range (unicode)
2010.04.23 태국어(Thai) / 히브리어(Hebrew)
2010.03.04 한글오토마타 관련 문서 2
2010.03.04 Unicode BOM(Byte Order Mark)
2010.02.11 국가코드 / 언어코드(country code/ langugae code)
2009.04.10 cyriilic character 정리

일본어는
히라가나 영역(0x3050~309F)
카타카나 영역(0x30A0~30FF)
그리고 한자 영역(0x4E00~9FFF CJK Ideograph) 을 사용한다.

웬만한 건 다 IME에서 처리해서 유니코드 상에서는 조합을 해줄건 없기에
반음("),반탁음(º)이라던가 요음(작은 글씨)은 1:1로 매칭된다.
머.. 좋게 말하면.. 오토마타란게 필요없을 정도로 참.. 간단한 언어?
[링크 : http://blog.naver.com/kisshaedo/140171257202]

결론 : 별거 없다. 그냥 있는대로 그대로 출력하면 끝

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

일본어 유니코드 2 (0)	2014.06.19
라틴 어군 관련 조사 (0)	2012.09.10
일본어 기본 폰트 및 유니코드 영역(히라가나,가타가나) (8)	2010.05.19
Hebrew code range (unicode) (0)	2010.04.30
태국어(Thai) / 히브리어(Hebrew) (0)	2010.04.23

Posted by 구차니

라틴 어군 관련 조사

러시아어와 그리스어를 포함하면 128자를 넘어서 조금 골때려 질수도 있겠지만
아무튼.. 정리중..

[링크 : http://ask.nate.com/knote/view.html?num=1261043] 스페인어
[링크 : http://blog.naver.com/coolwestlife/40056861990] 프랑스어
[링크 : http://ko.wikipedia.org/wiki/프랑스어]
[링크 : http://ko.wiktionary.org/wiki/프랑스어_알파벳]
[링크 : http://blog.daum.net/ausland/2758416] 독일어

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

일본어 유니코드 2 (0)	2014.06.19
일본어 유니코드 (0)	2014.06.09
일본어 기본 폰트 및 유니코드 영역(히라가나,가타가나) (8)	2010.05.19
Hebrew code range (unicode) (0)	2010.04.30
태국어(Thai) / 히브리어(Hebrew) (0)	2010.04.23

Posted by 구차니

일본어 기본 폰트 및 유니코드 영역(히라가나,가타가나)

히라가나 0x3040-0x309F [링크 : http://www.unicode.org/charts/PDF/U3040.pdf]
가타카나 0x30A0-0x30FF [링크 : http://www.unicode.org/charts/PDF/U30A0.pdf]

MS Mincho (winXP 기본) [링크 : http://mwultong.blogspot.com/2006/08/qna-xp-japanese-font.html]
Meiryo (winVISTA 기본) [링크 : http://tibetinside.com/13]

묶는 방법이 먼가해서 눌러봤더니 이런 신기한 창이?
아무튼, 일본어로 하니 기본적으로 MS Mincho 폰트로 변경되었다.

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

일본어 유니코드 (0)	2014.06.09
라틴 어군 관련 조사 (0)	2012.09.10
Hebrew code range (unicode) (0)	2010.04.30
태국어(Thai) / 히브리어(Hebrew) (0)	2010.04.23
한글오토마타 관련 문서 (2)	2010.03.04

Posted by 구차니

Hebrew code range (unicode)

Hebrew Range 0x0590 - 0x05FF
Hebrew Presentation Forms Range 0xFB00 - 0xFB4F

히브리어에 대한 유니코드 영역이다.
앞 부분은 조합되지 않은 영역이고
뒤의 presentation form은 조합되어 나오는 코드에 대한 영역이다.

(그러니까 unicode 변환하면 0x0590-0x05FF 영역의 값만 나오고
automata를 통해 0xFB00-0xFB4F 영역으로 출력을 해야한다.)

[링크 : http://www.unicode.org/charts/]

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

라틴 어군 관련 조사 (0)	2012.09.10
일본어 기본 폰트 및 유니코드 영역(히라가나,가타가나) (8)	2010.05.19
태국어(Thai) / 히브리어(Hebrew) (0)	2010.04.23
한글오토마타 관련 문서 (2)	2010.03.04
Unicode BOM(Byte Order Mark) (0)	2010.03.04

Posted by 구차니

태국어(Thai) / 히브리어(Hebrew)

위는 태국어
아래는 히브리어

태국어가 획이 많을뿐, 느낌은 비슷하다?

이스라엘에서 국어로서 히브리어/아랍어를 사용하며,
아랍어와 같이 오른쪽에서 왼쪽으로 글을 쓴다.
유니코드 상에서는 0x0590 ~ 0x05FF 영역이며, 0xFB1E ~ 0xFB4F 영역에도 존재한다. (뒤에 영역은 머지?)
모양을 보니, 아랍어와 같이 첨자가 붙어 조합을 해야할 것으로 보인다.

[링크 : http://enc.daum.net/dic100/contents.do?query1=10XXX32946] 타이어
[링크 : http://enc.daum.net/dic100/contents.do?query1=10XXX12664] 히브리어
[링크 : http://ko.wikipedia.org/wiki/타이]
[링크 : http://ko.wikipedia.org/wiki/이스라엘]
[링크 : http://www.hope-ind.com/Elpis/Elpis_home.htm]

아무튼 계통이 전혀 다른 언어임에도 불구하고 유사해 보이는건.. 특이한 경우인가?

언어 계통 따이까다이어족
깜따이어파
  Be-Tai
   Tai-Sek
    타이어군
     남 서타이
      동타이
       Chiang Saeng
        타이어

아프리카아시아어족
셈어파
  서셈어군
   중 부셈어
    북서셈어
     가나안어
      히 브리어

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

일본어 기본 폰트 및 유니코드 영역(히라가나,가타가나) (8)	2010.05.19
Hebrew code range (unicode) (0)	2010.04.30
한글오토마타 관련 문서 (2)	2010.03.04
Unicode BOM(Byte Order Mark) (0)	2010.03.04
국가코드 / 언어코드(country code/ langugae code) (0)	2010.02.11

Posted by 구차니

한글오토마타 관련 문서

유니코드에 있어 한글 오토마타는 쉬운편이다.
아무튼 초성/중성/종성 을 수식대로 입력을 하면 딱! 하고 코드값이 나오는 형식이다.
제한적이지만 어느정도 한글창제 원리에 맞추어 "조합형" 식으로 나열을 했기 때문이다.

한글 조합하기

한글글자 = 초성 * 21 * 28 + (중성 - 19) * 28 + (종성 - 40) + BASE_CODE(한글코드 테이블의 첫번째 문자코드)

예) 강 = ㄱ + ㅏ + ㅇ
         = 0 * 21 * 28 + (19 - 19) * 28 + (61 - 40) + 0xAC00 = 0xAC00(44032) + 21
         = 44053
         = 0xAC15

[링크 : http://codepedia.tistory.com/42]

한글 분해하기

Jong = UniValue % 28;
Jung = ( ( UniValue - Jong ) / 28 ) % 21;
Cho = parseInt (( ( UniValue - Jong ) / 28 ) / 21);

[링크 : http://zextor.tistory.com/2669852]

한글 갯수

초성은 19개
중성은 21개
종성은 28개

정렬 순서
첫소리	ㄱ ㄲ ㄴ ㄷ ㄸ ㄹ ㅁ ㅂ ㅃ ㅅ ㅆ ㅇ ㅈ ㅉ ㅊ ㅋ ㅌ ㅍ ㅎ
가운뎃소리	ㅏ ㅐ ㅑ ㅒ ㅓ ㅔ ㅕ ㅖ ㅗ ㅘ ㅙ ㅚ ㅛ ㅜ ㅝ ㅞ ㅟ ㅠ ㅡ ㅢ ㅣ
끝소리	( ) ㄱ ㄲ ㄳ ㄴ ㄵ ㄶ ㄷ ㄹ ㄺ ㄻ ㄼ ㄽ ㄾ ㄿ ㅀ ㅁ ㅂ ㅄ ㅅ ㅆ ㅇ ㅈ ㅊ ㅋ ㅌ ㅍ ㅎ

[링크 : http://kudak.egloos.com/740202]
[링크 : http://www.w3c.or.kr/i18n/hangul-i18n/ko-code.html]
[링크 : http://ko.wikipedia.org/wiki/한글]

초성

ㄱ

ㄲ

ㄴ

ㄷ

ㄸ

ㄹ

ㅁ

ㅂ

ㅃ

ㅅ

ㅆ

ㅇ

ㅈ

ㅉ

ㅊ

ㅋ

ㅌ

ㅍ

ㅎ

r

R

s

e

E

f

a

q

Q

t

T

d

w

W

c

z

x

v

g

중성

ㅏ

ㅐ

ㅑ

ㅒ

ㅓ

ㅔ

ㅕ

ㅖ

ㅗ

ㅘ

ㅙ

ㅚ

ㅛ

ㅜ

ㅝ

ㅞ

ㅟ

ㅠ

ㅡ

ㅢ

ㅣ

k

o

I

O

j

p

u

P

h

hk

ho

hl

y

n

nj

np

nl

b

m

ml

l

종성

ㄱ

ㄲ

ㄳ

ㄴ

ㄵ

ㄶ

ㄷ

ㄹ

ㄺ

ㄻ

ㄼ

ㄽ

ㄾ

ㄿ

ㅀ

ㅁ

ㅂ

ㅄ

ㅅ

ㅆ

ㅇ

ㅈ

ㅊ

ㅋ

ㅌ

ㅍ

ㅎ

r

R

rt

s

sw

sg

e

f

fr

fa

fq

ft

fx

fv

fg

a

q

qt

t

T

d

w

c

z

x

v

g

---
2014.03.26 추가

[링크 : http://blog.naver.com/netcrazy0/110066486580] 코드
[링크 : http://www.typographyseoul.com/181344]

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

Hebrew code range (unicode) (0)	2010.04.30
태국어(Thai) / 히브리어(Hebrew) (0)	2010.04.23
Unicode BOM(Byte Order Mark) (0)	2010.03.04
국가코드 / 언어코드(country code/ langugae code) (0)	2010.02.11
cyriilic character 정리 (0)	2009.04.10

Posted by 구차니

Unicode BOM(Byte Order Mark)

회사에서 이야기 하는 BOM과는 다르다!(Bill of Material)
아무튼 이 BOM이라는 녀석은
일종의 헤더로서

텍스트 파일의 인코딩을 알려주는 역활을 한다.
예를 들어 UTF-8, ANSI 이런 구분을 하는 것도 이 BOM이 존재하기 때문에 가능한 것이다.

Bytes	Encoding Form
00 00 FE FF	UTF-32, big-endian
FF FE 00 00	UTF-32, little-endian
FE FF	UTF-16, big-endian
FF FE	UTF-16, little-endian
EF BB BF	UTF-8

[링크 : http://www.unicode.org/faq/utf_bom.html]

[링크 : http://mwultong.blogspot.com/2006/05/qna-unicode-bom-byte-order-mark.html]
[링크 : http://devhome.tistory.com/11]
[링크 : http://en.wikipedia.org/wiki/Byte_order_mark]

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

태국어(Thai) / 히브리어(Hebrew) (0)	2010.04.23
한글오토마타 관련 문서 (2)	2010.03.04
국가코드 / 언어코드(country code/ langugae code) (0)	2010.02.11
cyriilic character 정리 (0)	2009.04.10
프랑스어 HTML 표기와 핸드폰 입력방식 (4)	2009.03.23

Posted by 구차니

국가코드 / 언어코드(country code/ langugae code)

우리가 이야기 하는

kr(국가코드)
kor,ko (언어코드)

들은 iso 639와 iso 3166에 정의되어 있다.

[링크 : http://en.wikipedia.org/wiki/ISO_639] 언어명에 대한 표준
[링크 : http://en.wikipedia.org/wiki/ISO_3166] 국가명에 대한 표준

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

한글오토마타 관련 문서 (2)	2010.03.04
Unicode BOM(Byte Order Mark) (0)	2010.03.04
cyriilic character 정리 (0)	2009.04.10
프랑스어 HTML 표기와 핸드폰 입력방식 (4)	2009.03.23
ISO8859-15 western character encoding (0)	2009.03.20

Posted by 구차니

cyriilic character 정리

알파벳과 유사한것들이 있기에 VFD의 CGRAM을 이용하여 제한된 문자열 내에서
여러나라말을 지원해야 할 경우가 생겨 잠시 노가다를...

일단 A B E K H O ... 이러한 것들은 알파벳과 유사하게 생겼고,
제한된 크기인 5x7 에서 표시 할 수 없으므로(혹은 식별이 힘든 문자들이므로)
알파벳과 동일하게 사용한다면 상당히 문자의 갯수를 줄일 수 있다.

목표치는 총 64개에 러시아어를 출력할 수 있도록 맵핑을 해야 하므로
96개중 32개(대소문자 포함한다면 각 문자별 16개)의 문자를 제외하면 된다.

А В Е К М Н О Р С Т У Х Ѕ І Ј
а в е к м н о р с т у х ѕ і ј

총 30개의 알파벳과 유사하게 생긴 러시아어이다.
테이블의 총 92개의 문자중에 30개 제외 되므로 64보다 작은 62개가 된다.

iso8859 cyrillic used character

1

А

0x0410

33

а

0x0430

2

Б

0x0411

34

б

0x0431

65

Ё

0x0401

79

ё

0x0451

3

В

0x0412

35

в

0x0432

66

Ђ

0x0402

80

ђ

0x0452

4

Г

0x0413

36

г

0x0433

67

Ѓ

0x0403

81

ѓ

0x0453

5

Д

0x0414

37

д

0x0434

68

Є

0x0404

82

є

0x0454

6

Е

0x0415

38

е

0x0435

69

Ѕ

0x0405

83

ѕ

0x0455

7

Ж

0x0416

39

ж

0x0436

70

І

0x0406

84

і

0x0456

8

З

0x0417

40

з

0x0437

71

Ї

0x0407

85

ї

0x0457

9

И

0x0418

41

и

0x0438

72

Ј

0x0408

86

ј

0x0458

10

Й

0x0419

42

й

0x0439

73

Љ

0x0409

87

љ

0x0459

11

К

0x041A

43

к

0x043A

74

Њ

0x040A

88

њ

0x045A

12

Л

0x041B

44

л

0x043B

75

Ћ

0x040B

89

ћ

0x045B

13

М

0x041C

45

м

0x043C

76

Ќ

0x040C

90

ќ

0x045C

14

Н

0x041D

46

н

0x043D

15

О

0x041E

47

о

0x043E

77

Ў

0x040E

91

ў

0x045E

16

П

0x041F

48

п

0x043F

78

Џ

0x040F

92

џ

0x045F

17

Р

0x0420

49

р

0x0440

18

С

0x0421

50

с

0x0441

19

Т

0x0422

51

т

0x0442

20

У

0x0423

52

у

0x0443

21

Ф

0x0424

53

ф

0x0444

22

Х

0x0425

54

х

0x0445

23

Ц

0x0426

55

ц

0x0446

24

Ч

0x0427

56

ч

0x0447

25

Ш

0x0428

57

ш

0x0448

26

Щ

0x0429

58

щ

0x0449

27

Ъ

0x042A

59

ъ

0x044A

28

Ы

0x042B

60

ы

0x044B

29

Ь

0x042C

61

ь

0x044C

30

Э

0x042D

62

э

0x044D

31

Ю

0x042E

63

ю

0x044E

32

Я

0x042F

64

я

0x044F

cyrillic.xls

iso8859-5.txt

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

Unicode BOM(Byte Order Mark) (0)	2010.03.04
국가코드 / 언어코드(country code/ langugae code) (0)	2010.02.11
프랑스어 HTML 표기와 핸드폰 입력방식 (4)	2009.03.23
ISO8859-15 western character encoding (0)	2009.03.20
dead key / compose key (0)	2009.03.20

Posted by 구차니

구차니의 잡동사니 모음

'모종의 음모/다국어 지원'에 해당되는 글 15건

일본어 유니코드 2

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

일본어 유니코드

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

라틴 어군 관련 조사

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

일본어 기본 폰트 및 유니코드 영역(히라가나,가타가나)

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

Hebrew code range (unicode)

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

태국어(Thai) / 히브리어(Hebrew)

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

한글오토마타 관련 문서

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

Unicode BOM(Byte Order Mark)

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

국가코드 / 언어코드(country code/ langugae code)

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

cyriilic character 정리

'모종의 음모 > 다국어 지원' 카테고리의 다른 글

카테고리

공지사항

태그목록

최근에 올라온 글

최근에 달린 댓글

티스토리툴바