이번에는 디비에서 인코딩과 관련한 글로 utf8mb4_unicode_ci와 utf8mb4_general_ci의 차이점을 보시겠습니다.
utf8mb4_unicode_ci와 utf8mb4_general_ci는 MySQL 데이터베이스에서 문자열을 비교 및 정렬하기 위해 사용되는 문자열 인코딩 및 정렬 규칙입니다. 이 두 규칙 간에는 다음과 같은 차이점이 있습니다:
1. 언어 및 문자 처리: utf8mb4_unicode_ci는 유니코드 기반으로 모든 언어 및 문자를 지원하는 규칙이며, 문자의 일관성과 정확성을 보장합니다. 반면에 utf8mb4_general_ci는 일반적인 언어 및 문자만을 지원하며, 몇몇 특수한 언어나 문자의 정렬이 올바르게 이루어지지 않을 수 있습니다.
2. 정렬 순서: utf8mb4_unicode_ci는 문자열을 정렬할 때 유니코드 코드 포인트를 기준으로 하여 정렬합니다. 이는 각 문자의 고유한 식별자를 기반으로 정렬하므로, 다양한 언어와 문자를 정확하게 정렬할 수 있습니다. 반면 utf8mb4_general_ci는 문자의 바이트 시퀀스를 기준으로 정렬하며, 일부 언어나 문자의 정렬 순서가 제대로 반영되지 않을 수 있습니다.
3. 성능: utf8mb4_unicode_ci는 정확한 문자 정렬을 위해 추가적인 계산이 필요하므로, 일반적으로 utf8mb4_general_ci에 비해 더 많은 리소스를 요구합니다. 따라서 대량의 데이터가 있는 경우 utf8mb4_general_ci를 사용하는 것이 성능상 유리할 수 있습니다.
결론적으로, utf8mb4_unicode_ci는 다양한 언어와 문자를 정확하게 지원하는 대신 약간의 성능 저하가 발생할 수 있습니다. utf8mb4_general_ci는 보다 간단하고 빠른 정렬을 제공하지만, 일부 언어나 문자에서는 정확한 정렬 순서가 보장되지 않을 수 있습니다. 선택은 사용하는 데이터베이스의 요구 사항과 용도에 따라 달라질 수 있습니다.
실례로 독일어나 프랑스어는 utf8mb4_unicode_ci에서는 정확하게 인코딩하나 utf8mb4_general_ci 는 인코딩 및 정렬에서 정확치 않습니다.
ß = s // utf8mb4_general_ci은 두 문자가 동일한것으로 인코딩
ß = ss // utf8mb4_general_ci는 서로다른 문자로 인식, 그러나 utf8mb4_unicode_ci는 독일사전규칙을 반영하여 두 문자를 동일한것으로 인코딩
때문에 디비를 설계할때 저장하려는 문자열의 어종에 따라 적합한 인코딩을 지정해주어야 하며 대용량디비에서는 될수록 utf8mb4_general_ci 를 써야 성능부하를 줄입니다.
댓글 3개
게시글 목록
| 번호 | 제목 |
|---|---|
| 17316 | |
| 17315 |
JavaScript
시계 스크립트 그런데 페이지 뜨는건 느린게 문제네...
|
| 17313 |
PHP
php 업로드 소스
4
|
| 17312 | |
| 17305 | |
| 17304 | |
| 17298 |
node.js
간단한 채팅
|
| 17294 | |
| 17291 | |
| 17285 | |
| 17284 |
JavaScript
두가지 형태의 페이지 로딩 [ 로딩중, 로딩 프로그레스바 ]
2
|
| 17279 | |
| 17272 | |
| 17271 |
JavaScript
관계에 따른 메뉴 구성방안
1
|
| 17270 | |
| 17262 | |
| 17255 | |
| 17248 |
JavaScript
엘레먼트 요소에서 data 를 이벤트 핸들러로 사용하기
4
|
| 17241 | |
| 17238 |
MySQL
interval에 쓸 수 있는 값
3
|
| 17236 |
PHP
탈퇴합니다.
6
|
| 17220 | |
| 17217 |
JavaScript
회원가입
2
|
| 17216 | |
| 17214 | |
| 17207 | |
| 17205 | |
| 17203 | |
| 17201 | |
| 17198 |
댓글 작성
댓글을 작성하시려면 로그인이 필요합니다.
로그인하기