테스트 사이트 - 개발 중인 베타 버전입니다

키워드 필터링

· 15년 전 · 920 · 4
키워드를 분리해내며 검사해내는 과정 입니다. ㅎㅎㅎㅎㅎㅎㅎ

왼쪽은 분리해내는 과정.
가운데의 A는 분리한 키워드, B는 필터된 키워드
오른쪽은 가운데와 마찬가지로 다른 키워드로 검사한 것






댓글 작성

댓글을 작성하시려면 로그인이 필요합니다.

로그인하기

댓글 4개

저만 어렵나요? 짱돌 굴려봐도 모르겠습니다!
키워드를 분리해내는 쪽을 잘 모르겠어요. 전 그냥 DAUM API 사용하는 것으로 ㅎㅎ;
앞에서부터 분리하고, 뒤에서부터 분리하고
두글짜부터 분리하고, 세글짜부터 분리하고, 네글짜부터 분리하고
두글자씩 첫번째부터 분리하고, 두글자씩 두번째부터 분리하고, 두글자씩 세번째부터 분리하고
세글자씩 첫번째부터 분리하고, 세글자씩 두번째부터 분리하고...

총 바이트를 구해서 계속 분리하면서 필터에 있는 단어와 검사를 하는거죠!
15년 전
이런건 형태소 분석기로 하는게 정신건강에 좋습니다.
"대학생선교회"
잘못 추출하면, 대학 + 생선 + 교회 가 나옵니다.
http://nlp.kookmin.ac.kr/HAM/kor/ham-intr.html 전 주로 이분껄 사용합니다만, 상업용으로 공개하신게 아니라서..
http://cs.sungshin.ac.kr/~shim/demo/mach.html 이건 공개용 버전인듯

게시글 목록

번호 제목
21248
13844
529
13842
526
29537
518
502
13840
25293
21244
29532
25288
29531
500
13836
21241
495
13832
25283
21236
13830
490
21220
21217
25277
25276
25275
484
13827
13825
13819
29529
13813
479
21211
25273
478
21201
25272
21189
477
476
21185
474
21181
21175
472
470
469
467
465
21168
25267
463
21164
21161
458
21146
457
13807
454
29528
451
447
21127
21122
25262
25254
21119
25251
25243
25239
21112
442
21103
25233
25222
25230
441
21100
25215
21097
21091
25212
25210
25209
21083
21080
439
438
436
25200
21066
25195
21055
21051
25192
21040
13803