Charset Auto Detection(캐릭터셋 자동 감지)

명랑폐인

· 14년 전 · 조회 2000 2000 · 댓글 1 1

링크

명시적으로 캐릭터셋을 정하지 않는 상태에서
param 으로 넘어온값이나, 문자열의 charset을 검출해야 하는 경우가 있습니다.
흔하게 발생되는 경우는 아니지만, 외부 시스템 연동과 같은 특수상황에서는 종종 발생하는 케이스입니다.
자바쪽 자료를 찾다가 php 자료들도 보이길래 정리해봅니다.
자동검출이기 때문에 100% 완벽하지 않습니다.

1. mb_detect_encoding()
- http://kr.php.net/manual/en/function.mb-detect-encoding.php

2. 캐릭터셋의 바이트 구조를 분석하여 직접 코딩
- http://my.oops.org/62
<?php
//
// +----------------------------------------------------------------------+
// | PHP Version 4 |
// +----------------------------------------------------------------------+
// | Copyright (c) 1997-2003 The PHP Group |
// +----------------------------------------------------------------------+
// | This source file is subject to version 2.02 of the PHP license, |
// | that is bundled with this package in the file LICENSE, and is |
// | available at through the world-wide-web at |
// | http://www.php.net/license/2_02.txt. |
// | If you did not receive a copy of the PHP license and are unable to |
// | obtain it through the world-wide-web, please send a note to |
// | license@php.net so we can mail you a copy immediately. |
// +----------------------------------------------------------------------+
// | Author: JoungKyun Kim <http://www.oops.org> |
// +----------------------------------------------------------------------+
//
// $Id: eSystem.php,v 1.2 2005/07/11 05:58:11 oops Exp $

require_once 'PEAR.php';

/**
* PEAR's eSystem:: interface. Defines the php extended system mapping function
* and any utility mapping function
*
* @access public
* @version $Revision: 0.1 $
* @package Unicode
*/
class Unicode extends PEAR
{
function chr2bin ($c, $shift = '') {
$c = ord ($c);

if ( $shift && preg_match ('/^([<>]+)[\s]*([0-9]+)/', $shift, $match) ) :
switch ($match[1]) :
case '>>' : $c = $c >> $match[2]; break;
case '<<' : $c = $c << $match[2]; break;
case '<' : $c = $c < $match[2]; break;
case '>' : $c = $c > $match[2]; break;
endswitch;
endif;

return decbin ($c);
}

function is_utf8 ($str) {
$_l = strlen ($str);
$_not = 0;

for ( $i=0; $i<$_l; $i++ ) :
#$_first = $this->chr2bin ($str[$i]);

# if 7bit charactior or numeric, skipped
#if ( strlen ($_first) != 8 )
# continue;

# if single byte charactors, skipped
if ( ! (ord ($str[$i]) & 0x80) ) :
continue;
endif;

$_first = $this->chr2bin ($str[$i], '>>4');

switch ( $_first ) :
case 1111 : $b = 3; break; # 4byte
case 1110 : $b = 2; break; # 3byte
default : return 0; # not utf8
endswitch;

for ( $j=1; $j<$b; $j++ ) :
if ( substr ($this->chr2bin ($str[$i+$j]), 0, 2) != 10 )
return 0;
endfor;

break;
endfor;

return $_not ? 0 : 1;
}
}

/*
* Local variables:
* tab-width: 4
* c-basic-offset: 4
* End:
* vim600: noet sw=4 ts=4 fdm=marker
* vim<600: noet sw=4 ts=4
*/
?>

사용예
<?
require_once 'Unicode.php';
$_f = 'usage_200509.html';
$_ff = 'bb.html';

$u = new Unicode;
if ( file_exists ($_ff) )
unlink ($_ff);

$_t = file ($_f);

foreach ( $_t as $_v ) :
$_v = trim ($_v);
if ( $u->is_utf8 ($_v) )
putfile_lib ($_ff, utf8decode_lib ($_v, 'cp949'), 1);
else
putfile_lib ($_ff, $_v, 1);
endforeach;

?>

그외 참고 url
http://my.oops.org/126<div class='small'>[이 게시물은 관리자님에 의해 2011-10-31 17:16:08 PHP & HTML에서 이동 됨]</div>

댓글 작성

댓글을 작성하시려면 로그인이 필요합니다.

로그인하기

댓글 1개

이지소프트

프로필 보기 이 회원 글보기

14년 전

내가 조아라 하는 pear소스네요...ㅎㅎ

게시글 목록

번호	제목	글쓴이	조회	날짜
8050	홈페이지 리뉴얼시 디잔+퍼블리싱+개발 비중 3	아이기대	1,265	10년 전
8048	댓글 로직 1	리자	1,074	10년 전
19969	MySQL mysql 상태를 확인 하는 방법	잘살아보자	541	10년 전
19968	MySQL mysql 실시간 processlist	잘살아보자	451	10년 전
19967	기타 SQL Injection 개념과 원리	잘살아보자	785	10년 전
19966	MySQL 원활한 SQL Injection을 위해 숙지해야 할 mysql의 작동원리	잘살아보자	507	10년 전
19965	MySQL mysql 일반적인 최적화 팁	잘살아보자	418	10년 전
19964	기타 간단한 리눅스 명령어	잘살아보자	476	10년 전
19963	웹서버 모니터링에 유용한 리눅스 명령어 watch	잘살아보자	414	10년 전
19962	MySQL mysql 데이터 경로 바꾸기	잘살아보자	457	10년 전
19961	MySQL mysql 운영팁. 느린 쿼리를 발견하기	잘살아보자	399	10년 전
28345	이미지 경로.. 1	비긴어게인	643	10년 전
31017	CSS 당신은 모를 수도 있는 CSS의 7가지 단위 4	JRevirthuum	2,491	10년 전
19960	기타 아파치 동시접속자 알아내기	잘살아보자	622	10년 전
19959	MySQL mysql index에 대해..	잘살아보자	353	10년 전
19958	MySQL 구분자는 enum으로	잘살아보자	400	10년 전
19957	MySQL mysql zerofill에 대해	잘살아보자	429	10년 전
8039	Functional Programming in PHP 8	아샬	1,729	10년 전
8035	답답한 전문대학교 학생 질문드립니다. 3	ktop	1,657	10년 전
8029	질문 있습니당! mysql 5	비트블루	1,047	10년 전
28344	퍼블리셔분을 모집합니다.	이현범	1,338	10년 전
28339	모바일 hover효과 주기 4	오냥	1,470	10년 전
8019	PHP7에 대해 반드시 알아야 할 다섯 가지 진실! 9	아샬	1,431	10년 전
28338	알바 구해봅니다.	세죠	816	10년 전
8017	DB 데이터 서버 변경문의 1	별지기천사	545	10년 전
8010	엄마 아빠도 모르는 음력의 비밀 6	아샬	1,036	10년 전
8007	[구인] 중장기 프로젝트 POS SYSTEM 개발자 구합니다. 2	ICONdesignstudio	581	10년 전
8004	제이쿼리 충돌되는 부분 좀 봐주세요ㅠ 2	흰이닝	539	10년 전
8003	도메인 DNS갱신(초기화) bat 프로그램	foxrain	673	10년 전
28332	홈페이지 유지 보수 하실 분 찾습니다. 5	갤로긍	1,365	10년 전
28322	퍼브리싱하는데 질문입니다. 9	지로쿨	1,065	10년 전
7999	phpt날짜계산 3	공부가	547	10년 전
28317	프리랜서 퍼블리서(오랫동안 같이 일할 성실한분 찾습니다.) 4	통신	1,098	10년 전
20956	그누보드 최신버전 (5.1.1) 살펴보기 - bbs/board.php (1) 13	유창화	5,103	10년 전
7992	SSL 암호와 통신에 대해 토론(조언)을 제안합니다. 6	선우善友	598	10년 전
20945	그누보드5 그누보드 최신버전 (5.1.1) 살펴보기 - bbs/visit_insert.inc.php 10	유창화	1,643	10년 전
28314	안드로이드 웹뷰에서 select 디자인 변경.. 2	쿠츠	1,008	10년 전
20936	그누보드5 그누보드 최신버전 (5.1.0) 살펴보기 - common.php (7) 8	유창화	1,502	10년 전
20931	그누보드5 그누보드 최신버전 (5.1.0) 살펴보기 - common.php (6) 4	유창화	1,245	10년 전
7986	이 사이트는 어떤 언어인가요? 5	키유	775	10년 전
20925	그누보드5 그누보드 최신버전 (5.1.0) 살펴보기 - common.php (5) 5	유창화	1,348	10년 전
7982	개발자분들 연봉관련하여 조언을 구하고자 합니다. 3	나나26	972	10년 전
7979	자바스크립트.. 도움이 필요합니다ㅠ 2	도룡이	539	10년 전
7978	사이트를 리뉴얼 해 보았습니다,	파랑새1597	546	10년 전
7975	프로그래머 찾습니다! 2	쵸미	795	10년 전
28307	부트스트랩 기반의 사이트가 많아지는 느낌이 듭니다. 6	세모네모	1,309	10년 전
7973	프로그래머 구인중입니다. 1	김로니	758	10년 전
7966	삽질하다가 겨우 만들어낸...; 6	스아이	1,000	10년 전
28305	웹접근성인증마크 취득 경험 있으신 퍼블리셔 모집합니다. 1	안실장	865	10년 전
7963	그냥 간단한 페이지 레이아웃 잡는데 2	북금곰	606	10년 전
28300	브라우저별 폰트가 다르네요. 4	때때미	944	10년 전
7961	웹페이지 제작중에 클릭한 메뉴 다음페이지에서 고정하고 싶은데.. 1	푼돈	447	10년 전
28297	메뉴 현재페이지 고정때문에 질문드려요 2	푼돈	680	10년 전
28295	putty 압축해제하는 방법에 대해서 1	북금곰	586	10년 전
7959	삼성전자에서 만든 IoT용 오픈소스, 제리스크립트와 IoT.js 1	JRevirthuum	907	10년 전
19948	지금까지 잘못 알고 있었던 MySQL int type의 진실.. 8	JRevirthuum	1,098	10년 전
19947	PHP 휴대폰 번호 - 원하는 자리에 * 로 표현	벤지	1,012	10년 전
28292	자바스크립트 메모리관리 ? 어떻게들 관리하시나요!? 2	유우니얌	718	10년 전
31016	HTML 모바일 작업시 숫자인식,메일주소, 지도상의 주소링크 막기	임예니	1,039	10년 전
19946	PHP 전화번호 뒷번호 **** 숨길 때	신리	830	10년 전
19945	웹서버 한번에 업로드할 수 있는 화일 갯수 지정	신리	586	10년 전
28286	반응형으로 만드는데... 익스 8 크로스브라우징까지 해야하나요... 5	mashmellow	1,189	10년 전
7958	시놀로지 나스에 그누보드5 깔아서 쓰시는분 있나요?	징허그만	666	10년 전
7956	Python Flask 지원하는 호스팅 업체가 있을까요? 1	베원	941	10년 전
7952	아파치 도메인 설정 질문입니다. 3	senseme	615	10년 전
7946	mysql get 0은 null?? 질문입니다.! 5	비트블루	467	10년 전
28285	울산분 구합니다.	민팀장	1,851	10년 전
28283	이홈페이지에 적용된 자바가 궁금해요! 도와주세요 ㅠㅠ 1	mixx애교	947	10년 전
19943	PHP CloudFlare 사용시 방문자 IP와 SSL 접속여부 파악하기 1	기진곰	973	10년 전
7944	과외받고싶습니다. 1	hkhkah	748	10년 전
7936	부산에서 프로그래밍 배우고싶은 분 7	DMAN	1,034	10년 전
7931	하이브리드앱은 네이티브보다 속도가 느릴수밖에 없나요..? 4	커네드커네드	894	10년 전
28279	스타일시스 이용 이미지사이즈 조절 3	바람돌이팡	627	10년 전
24666	안녕하세요 2	박겸	1,111	10년 전
24663	블로그를 운영시 검색상위에서 밀려난 원인이 3	북금곰	1,535	10년 전
7928	php과외 선생님을 모십니다. 2	나기님	944	10년 전
7923	요즘 개발 업체에 의뢰하면..의뢰자가 전문인 아니어도 개발 잘 해주시나요? 4	개발짜증나	825	10년 전
19941	MySQL phpMyAdmin 시간 늘리기 1	네이비칼라	848	10년 전
28274	요즘 자바스크립트로 링크 안거나요? 4	밥먹고합시다	774	10년 전
28257	코딩하는데 얼마나 걸리세요? 16	플라이SINJI	1,471	10년 전
28249	반응형 웹 개발시 가장 먼저 공부해야할 언어는 무엇인가요? 7	개발짜증나	1,367	10년 전
28248	그누보드 게시판 홈피에 꺼냈는데 제한된 영역만 보여여 코딩도움주실분!	가을전사	421	10년 전
7914	강원도 원주에 사시는 개발자님 계신가요? 8	이미영ㅇㅇ	807	10년 전
7912	모바일 글수정시 1	나바랍	402	10년 전
7911	영카트4, 5 로 모바일 쇼핑몰 몇년 유지보수 후기	벤지	761	10년 전
20912	그누보드5 그누보드 최신버전 (5.0.36) 살펴보기 - common.php (4) 12	유창화	2,239	10년 전
7908	워프--->그누5 리모델링 후기 2	벤지	776	10년 전
31755	부트스트랩 부트스트랩 MIT 라이센스? 4	돼지코구뇽	2,824	10년 전
28233	반응형페이징! 14	스아이	1,472	10년 전
28232	펜션 홈페이지에서 나오는 음악들은..	미쓰홍	1,096	10년 전
28228	rido님 글 확인 가능하신가요? 3	개발짜증나	437	10년 전
7903	에효.....템플릿 예시홈페이지만들기..... 4	AJFLDKVMEK	779	10년 전
28217	초보자가 반응형 웹을 만들기엔 어려울까요? 10	개발짜증나	1,076	10년 전
20900	그누보드5 그누보드 최신버전 (5.0.36) 살펴보기 - common.php (3) 11	유창화	1,496	10년 전
24662	기획자가 되려면 어떻게 해야 하나요?? 1	별이님	2,861	10년 전
20891	그누보드5 그누보드 최신버전 (5.0.36) 살펴보기 - common.php (2) 8	유창화	1,648	10년 전
20882	그누보드5 그누보드 최신버전 (5.0.36) 살펴보기 - common.php (1) 8	유창화	1,808	10년 전
19936	웹서버 SSL의 정석 (아파치 & nginx) 4	기진곰	2,276	10년 전
20853	그누보드5 그누보드 최신버전 (5.0.36) 살펴보기 - config.php 28	유창화	3,871	10년 전
31011	기타 구글의 material design에 관한 설명입니다. 4	JRevirthuum	1,487	10년 전

이전 다음

4 5 6 7 8

전체 목록