이번에는 디비에서 인코딩과 관련한 글로 utf8mb4_unicode_ci와 utf8mb4_general_ci의 차이점을 보시겠습니다.
utf8mb4_unicode_ci와 utf8mb4_general_ci는 MySQL 데이터베이스에서 문자열을 비교 및 정렬하기 위해 사용되는 문자열 인코딩 및 정렬 규칙입니다. 이 두 규칙 간에는 다음과 같은 차이점이 있습니다:
1. 언어 및 문자 처리: utf8mb4_unicode_ci는 유니코드 기반으로 모든 언어 및 문자를 지원하는 규칙이며, 문자의 일관성과 정확성을 보장합니다. 반면에 utf8mb4_general_ci는 일반적인 언어 및 문자만을 지원하며, 몇몇 특수한 언어나 문자의 정렬이 올바르게 이루어지지 않을 수 있습니다.
2. 정렬 순서: utf8mb4_unicode_ci는 문자열을 정렬할 때 유니코드 코드 포인트를 기준으로 하여 정렬합니다. 이는 각 문자의 고유한 식별자를 기반으로 정렬하므로, 다양한 언어와 문자를 정확하게 정렬할 수 있습니다. 반면 utf8mb4_general_ci는 문자의 바이트 시퀀스를 기준으로 정렬하며, 일부 언어나 문자의 정렬 순서가 제대로 반영되지 않을 수 있습니다.
3. 성능: utf8mb4_unicode_ci는 정확한 문자 정렬을 위해 추가적인 계산이 필요하므로, 일반적으로 utf8mb4_general_ci에 비해 더 많은 리소스를 요구합니다. 따라서 대량의 데이터가 있는 경우 utf8mb4_general_ci를 사용하는 것이 성능상 유리할 수 있습니다.
결론적으로, utf8mb4_unicode_ci는 다양한 언어와 문자를 정확하게 지원하는 대신 약간의 성능 저하가 발생할 수 있습니다. utf8mb4_general_ci는 보다 간단하고 빠른 정렬을 제공하지만, 일부 언어나 문자에서는 정확한 정렬 순서가 보장되지 않을 수 있습니다. 선택은 사용하는 데이터베이스의 요구 사항과 용도에 따라 달라질 수 있습니다.
실례로 독일어나 프랑스어는 utf8mb4_unicode_ci에서는 정확하게 인코딩하나 utf8mb4_general_ci 는 인코딩 및 정렬에서 정확치 않습니다.
ß = s // utf8mb4_general_ci은 두 문자가 동일한것으로 인코딩
ß = ss // utf8mb4_general_ci는 서로다른 문자로 인식, 그러나 utf8mb4_unicode_ci는 독일사전규칙을 반영하여 두 문자를 동일한것으로 인코딩
때문에 디비를 설계할때 저장하려는 문자열의 어종에 따라 적합한 인코딩을 지정해주어야 하며 대용량디비에서는 될수록 utf8mb4_general_ci 를 써야 성능부하를 줄입니다.
댓글 3개
게시글 목록
| 번호 | 제목 |
|---|---|
| 18200 | |
| 18195 | |
| 18193 | |
| 18181 | |
| 18179 | |
| 18173 | |
| 18170 | |
| 18164 | |
| 18158 | |
| 18155 | |
| 18152 |
JavaScript
한글과컴퓨터 키워드추출스크립트.
2
|
| 18151 | |
| 18150 |
JavaScript
위에서 아래로 내려오는 효과 6가지
|
| 18140 | |
| 18139 | |
| 18138 |
JavaScript
마우스로 td 간격 조정하기.
1
|
| 18131 | |
| 18130 |
JavaScript
엘레먼트에 다이렉트로 변수,배열,객체 심기
|
| 18120 | |
| 18119 | |
| 18118 |
jQuery
0원팁- 숫자형 아이디에 접근하기
1
|
| 18117 |
jQuery
유용하게 써먹는 반응형 grid
1
|
| 18116 | |
| 18111 |
MySQL
db에서 트리거 만들기
|
| 18110 | |
| 18108 |
JavaScript
디바운스 debounce의 개념
1
|
| 18107 |
JavaScript
jquery 타이머 만들기
2
|
| 18106 | |
| 18100 | |
| 18090 |
댓글 작성
댓글을 작성하시려면 로그인이 필요합니다.
로그인하기