CS

[CS] 문자집합, 인코딩, 디코딩에 대하여 (feat. 아스키코드)

chandlerxx 2024. 4. 11. 20:18

문자집합(character set)

  • 컴퓨터가 인식하는 문자의 모음
  • 아스키코드 : 초장기 문자집합 중 하나로 아스키 문자에 대응되는 고유한 수
    • 1 byte(8bit) 사용
    • 7 bit : 128(=2^7)개의 문자를 표현할 수 있음 → 오직 문자 표현을 위해 사용되는 비트
    • 1 bit : parity bit로 오류 검출을 위해 사용되는 비트

 

Tip)

아스키코드를 이진법으로 표현함(인코딩)으로써 컴퓨터가 정보를 이해할 수 있습니다.
알아두면 편리한 아스키문자는 하기 테이블 참고 하시기 바라며, 아래 문자 외 궁금한 문자는 위 링크 참고 바랍니다.
이진법 십진법 십육진법 문자
1000001 65 41 A
1011010 90 5A Z
1100001 97 61 a
1111010 122 7A z

 

 

 

인코딩(encoding)

  • 문자집합에 속한 문자 → 0, 1 
  • 컴퓨터가 이해할 수 있는 언어로 변환하는 과정
  • 같은 문자집합에서도 다양한 인코딩 방법이 존재함

 

디코딩(decoding) 

  • 0, 1 →   문자집합에 속한 문자
  • 사람이 이해할 수 있는 문자로 변환하는 과정

 

한글을 인코딩하는 방식은 뭘까?

  • 유니코드 : 전 세계의 모든 문자를 다루도록 설계된 표준 문자 전산 처리 방식(출처)
  • 유니코드 기반의 UTF-8 방식을 주로 사용함

 

출처

교보문고 혼공컴운