CS
[CS] 문자집합, 인코딩, 디코딩에 대하여 (feat. 아스키코드)
chandlerxx
2024. 4. 11. 20:18
문자집합(character set)
- 컴퓨터가 인식하는 문자의 모음
- 아스키코드 : 초장기 문자집합 중 하나로 아스키 문자에 대응되는 고유한 수
- 1 byte(8bit) 사용
- 7 bit : 128(=2^7)개의 문자를 표현할 수 있음 → 오직 문자 표현을 위해 사용되는 비트
- 1 bit : parity bit로 오류 검출을 위해 사용되는 비트
Tip)
아스키코드를 이진법으로 표현함(인코딩)으로써 컴퓨터가 정보를 이해할 수 있습니다.
알아두면 편리한 아스키문자는 하기 테이블 참고 하시기 바라며, 아래 문자 외 궁금한 문자는 위 링크 참고 바랍니다.
이진법 | 십진법 | 십육진법 | 문자 |
1000001 | 65 | 41 | A |
1011010 | 90 | 5A | Z |
1100001 | 97 | 61 | a |
1111010 | 122 | 7A | z |
인코딩(encoding)
- 문자집합에 속한 문자 → 0, 1
- 컴퓨터가 이해할 수 있는 언어로 변환하는 과정
- 같은 문자집합에서도 다양한 인코딩 방법이 존재함
디코딩(decoding)
- 0, 1 → 문자집합에 속한 문자
- 사람이 이해할 수 있는 문자로 변환하는 과정
한글을 인코딩하는 방식은 뭘까?
- 유니코드 : 전 세계의 모든 문자를 다루도록 설계된 표준 문자 전산 처리 방식(출처)
- 유니코드 기반의 UTF-8 방식을 주로 사용함
출처