테스트 사이트 - 개발 중인 베타 버전입니다

키워드 필터링

키워드를 분리해내며 검사해내는 과정 입니다. ㅎㅎㅎㅎㅎㅎㅎ

왼쪽은 분리해내는 과정.
가운데의 A는 분리한 키워드, B는 필터된 키워드
오른쪽은 가운데와 마찬가지로 다른 키워드로 검사한 것






댓글 작성

댓글을 작성하시려면 로그인이 필요합니다.

로그인하기

댓글 4개

저만 어렵나요? 짱돌 굴려봐도 모르겠습니다!
키워드를 분리해내는 쪽을 잘 모르겠어요. 전 그냥 DAUM API 사용하는 것으로 ㅎㅎ;
앞에서부터 분리하고, 뒤에서부터 분리하고
두글짜부터 분리하고, 세글짜부터 분리하고, 네글짜부터 분리하고
두글자씩 첫번째부터 분리하고, 두글자씩 두번째부터 분리하고, 두글자씩 세번째부터 분리하고
세글자씩 첫번째부터 분리하고, 세글자씩 두번째부터 분리하고...

총 바이트를 구해서 계속 분리하면서 필터에 있는 단어와 검사를 하는거죠!
이런건 형태소 분석기로 하는게 정신건강에 좋습니다.
"대학생선교회"
잘못 추출하면, 대학 + 생선 + 교회 가 나옵니다.
http://nlp.kookmin.ac.kr/HAM/kor/ham-intr.html 전 주로 이분껄 사용합니다만, 상업용으로 공개하신게 아니라서..
http://cs.sungshin.ac.kr/~shim/demo/mach.html 이건 공개용 버전인듯

게시글 목록

번호 제목
21960
21957
25457
21956
25455
21954
21947
21940
21920
21918
851
21915
25447
13921
21912
21911
21905
21895
21885
21870
21864
21839
21834
13918
25433
846
843
21822
21817
21808
21800
25432
21777
25429
13912
21765
838
21763
833
819
25428
13908
21750
815
21728
25424
812
13906
29551
21686
25423
810
21661
13905
25422
29545
13904
13903
25420
21658
13902
21654
805
802
801
25415
25411
797
25410
795
13900
21624
25407
25406
25405
21592
780
25403
25402
25401
25400
25393
25392
25391
25389
21588
25385
775
25371
25352
771
25351
25350
25347
767
25346
21579
21570
760
757