테스트 사이트 - 개발 중인 베타 버전입니다

키워드 필터링

키워드를 분리해내며 검사해내는 과정 입니다. ㅎㅎㅎㅎㅎㅎㅎ

왼쪽은 분리해내는 과정.
가운데의 A는 분리한 키워드, B는 필터된 키워드
오른쪽은 가운데와 마찬가지로 다른 키워드로 검사한 것






댓글 작성

댓글을 작성하시려면 로그인이 필요합니다.

로그인하기

댓글 4개

저만 어렵나요? 짱돌 굴려봐도 모르겠습니다!
키워드를 분리해내는 쪽을 잘 모르겠어요. 전 그냥 DAUM API 사용하는 것으로 ㅎㅎ;
앞에서부터 분리하고, 뒤에서부터 분리하고
두글짜부터 분리하고, 세글짜부터 분리하고, 네글짜부터 분리하고
두글자씩 첫번째부터 분리하고, 두글자씩 두번째부터 분리하고, 두글자씩 세번째부터 분리하고
세글자씩 첫번째부터 분리하고, 세글자씩 두번째부터 분리하고...

총 바이트를 구해서 계속 분리하면서 필터에 있는 단어와 검사를 하는거죠!
이런건 형태소 분석기로 하는게 정신건강에 좋습니다.
"대학생선교회"
잘못 추출하면, 대학 + 생선 + 교회 가 나옵니다.
http://nlp.kookmin.ac.kr/HAM/kor/ham-intr.html 전 주로 이분껄 사용합니다만, 상업용으로 공개하신게 아니라서..
http://cs.sungshin.ac.kr/~shim/demo/mach.html 이건 공개용 버전인듯

게시글 목록

번호 제목
13686
13683
21003
13680
25150
25143
20981
13679
13678
13677
13675
13674
29483
13672
13671
13670
13669
29482
13668
13666
29481
29480
13665
13664
13663
13662
13661
25124
25116
20970
13660
JavaScript adsc
13658
29479
13655
13650
13648
13647
13646
29478
13645
PHP 3.0
13643
13642
13640
13637
13636
13635
13634
29476
13633
13632
13630
29473
13624
13620
13582
13556
29472
29471
13555
13554
13553
13552
13551
13550
13546
13545
13544
29470
13541
13540
13538
13535
29466
13533
29463
13532
13531
13529
29462
13528
29459
29458
13527
13526
13525
13523
13522
13512
13510
13507
13498
29452
13492
13487
29450
13480
13474
13460
13457
29447