- 책_곽용재님 홈페이지
- 책_노란북 - 책 가격비교
- 책_김재우-SICP번역
- 플밍_쏘쓰포지
- 플밍_CodingHorror ?
- 플밍_상킴
- 플밍_김민장님
- GPGStudy
- 플밍_미친감자님
- 플밍_jz
- 플밍_샤방샤방님
- 플밍_글쓰는프로그래머2
- 플밍_키보드후킹
- 사람_재혁
- 사람_kernel0
- 사람_박PD
- 사람_경석형
- 사람_nemo
- 사람_kikiwaka
- 사람_Junios
- 사람_harry
- 사람_어떤 개발자의 금서목록..
- 사람_모기소리
- 사람_낙타한마리
- 사람_redkuma
- 사람_영원의끝
- 사람_민식형
- 도스박스 다음카페
- 플레이웨어즈 - 게임하드웨어벤치마크
- http://puwazaza.com/
- David harvey의 Reading Marx's c…
- 씨네21
- 한겨레_임경선의 이기적인 상담실
- 본격2차대전만화 - 굽시니스트
- 영화_정성일 글모음 페이지
- 영화_영화속이데올로기파악하기
- 음식_생선회
- 죽력고
- 사람_한밀
- 플밍_수까락
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 고전강의
- 유시민
- 영화
- 정성일
- 게임
- c++
- 노무현
- 진삼국무쌍5
- Programming
- 삼국지
- 태그가 아깝다
- 정신분석
- modernc++
- 유머
- 진중권
- 건강
- 고등학교 사회공부
- 강유원
- template
- 책
- 일리아스
- stl
- 프로그래밍
- BSP
- 김두식
- 소비자고발
- 삼국지6
- 단상
- 인문학
- programming challenges
- Today
- Total
lancelot.com
Character set 관련, DBCSs, UTF-8, UTF-32 본문
1. Window via C/C++
p.12
In a double-byte character set, each character in a string consist of either 1 or 2 bytes. With Kanji, for example, if the first character is between 0x81 and 0x9F or between 0xE0 and 0xFC, you must look at the next byte to determin the full character in the string.
DBCS는 1byte 나 2byte인 문자로 구성된 문자열입니다. 예를들어 '간지'같은경우, 첫째 문자가 0x81 과 0x9F사이에 있거나 0xE0 과 0xFC사이에 있으면, 다음 byte를 봐야 글씨를 알수있다(즉, 2바이트 짜리다 라는 얘기죠)
UTF-8
UTF-8 encodes some characters as 1 byte, some characters as 2 bytes, some characters as 3 bytes, and some characters as 4 bytes. Characters with a value below 0x0080 are compressed to 1 byte, which works very well for characters used in the United states. Characters between 0x0080 and 0x07FF are converted to 2 bytes, which works well for European and Middle Eastern languages. Characters of 0x0800 and above are converted to 3 bytes, which works well for East Asian languages. Finally, surrogate pairs are written out as 4 bytes. UTF-8 is an extreamely popular encoding format, but it's less efficient than UTF-16 if you encode many characters with values of 0x0800 or above.
UTF-8 은, 문자에따라 1,2,3,4 byte가 될수있네요.
0x0080 아래인건 1byte로 나타냅니다. 미쿡에서 쓰는 문자들이랍니다.
0x0080 - 0x07FF 사이는 2byte로 나타냅니다. European 과 중동언어 네요.
0x0800 위로는 3byte로 나타냅니다. 동아시아 언어에 쓰인다는군요.
surrogate pair 는 4 byte로 나타낸다는데 이건 뭔지 아직 잘모르겠군요.
UTF-32
UTF-32 encodes every character as 4 bytes.
긴말이 필요없습니다.