테스트 사이트 - 개발 중인 베타 버전입니다

pdf파일 전문(Full-Text) 검색 방법 채택완료

AI컴퓨터닷 9개월 전 조회 1,802

안녕하세요

 

게시판에 등록된 pdf파일 전문 검색이 가능할까요??

 

방법이 있으면 수정할 부분과 코드 부탁 드립니다,

 

감사 합니다 ㅠㅠ

댓글을 작성하려면 로그인이 필요합니다.

답변 4개

채택된 답변
+20 포인트
포이치
9개월 전

기본 로직만 설명 드리자면 여러 콤포넌트가 있겠지만

smalot/pdfparser 를 예를 들어...

 

컴포저로 해당 콤포넌트 설치하시고.

composer require smalot/pdfparser

 

</p>

<p><?php

require 'vendor/autoload.php';</p>

<p>use Smalot\PdfParser\Parser;</p>

<p>// PDF 파일 경로

$pdfFile = 'example.pdf'; //첨부파일 경로를 대입.</p>

<p>// PDF 파서 생성

$parser = new Parser();

$pdf = $parser->parseFile($pdfFile);</p>

<p>// PDF 내용 추출

$text = $pdf->getText();</p>

<p>// 검색할 텍스트

$searchText = '특정 텍스트'; //검색어</p>

<p>// 검색 수행

if (strpos($text, $searchText) !== false) {

    echo "텍스트가 발견되었습니다!";

} else {

    echo "텍스트를 찾을 수 없습니다.";

}

?></p>

<p>

 

요런식으로 간단히 설명 드립니다.

pdf 텍스트가 에디터에서 긁히는 방식이면 사용가능 하고 이미지 형식이면

Tesseract 를 통해 ocr 인식하셔야 합니다.

로그인 후 평가할 수 있습니다

댓글을 작성하려면 로그인이 필요합니다.

n
9개월 전

추가 피해자 방지 https://sir.kr/conflictconsultation/245" rel="nofollow noreferrer noopener" target="_blank">https://sir.kr/conflictconsultation/245

로그인 후 평가할 수 있습니다

댓글을 작성하려면 로그인이 필요합니다.

9개월 전

PDF 추출하는 api 가 많이 있습니다. 

추출 성능이 높아야 하는 경우라면,  업스테이지 도큐먼트 파서나, claude api 를 쓰는 방법이 있습니다.

(추출 성능이 높으면 가격이 비싸다고 생각하시면 됩니다.)

 

단순하게 pdf에서 텍스트만 추출한다면, python 이나 java 로 된 라이브러리를 통해 추출한것을 db 에 저장하는 방식이 적당할것 같네요.

 

데이타를 추출한뒤에 전문 검색을 할수 있겠죠.  

로그인 후 평가할 수 있습니다

댓글을 작성하려면 로그인이 필요합니다.

유찬아빠
9개월 전

방법이 없지는 않지만 쉬운 작업이 아닙니다. 제작의뢰로 의뢰 해 보는것이 좋을 듯 합니다
검색해 본 결과인데 참고해 보세요

https://coronasdk.tistory.com/582

 

로그인 후 평가할 수 있습니다

댓글을 작성하려면 로그인이 필요합니다.

답변을 작성하려면 로그인이 필요합니다.

로그인