답변 4개
기본 로직만 설명 드리자면 여러 콤포넌트가 있겠지만
smalot/pdfparser 를 예를 들어...
컴포저로 해당 콤포넌트 설치하시고.
composer require smalot/pdfparser
</p>
<p><?php
require 'vendor/autoload.php';</p>
<p>use Smalot\PdfParser\Parser;</p>
<p>// PDF 파일 경로
$pdfFile = 'example.pdf'; //첨부파일 경로를 대입.</p>
<p>// PDF 파서 생성
$parser = new Parser();
$pdf = $parser->parseFile($pdfFile);</p>
<p>// PDF 내용 추출
$text = $pdf->getText();</p>
<p>// 검색할 텍스트
$searchText = '특정 텍스트'; //검색어</p>
<p>// 검색 수행
if (strpos($text, $searchText) !== false) {
echo "텍스트가 발견되었습니다!";
} else {
echo "텍스트를 찾을 수 없습니다.";
}
?></p>
<p>
요런식으로 간단히 설명 드립니다.
pdf 텍스트가 에디터에서 긁히는 방식이면 사용가능 하고 이미지 형식이면
Tesseract 를 통해 ocr 인식하셔야 합니다.
댓글을 작성하려면 로그인이 필요합니다.
추가 피해자 방지 https://sir.kr/conflictconsultation/245" rel="nofollow noreferrer noopener" target="_blank">https://sir.kr/conflictconsultation/245
댓글을 작성하려면 로그인이 필요합니다.
PDF 추출하는 api 가 많이 있습니다.
추출 성능이 높아야 하는 경우라면, 업스테이지 도큐먼트 파서나, claude api 를 쓰는 방법이 있습니다.
(추출 성능이 높으면 가격이 비싸다고 생각하시면 됩니다.)
단순하게 pdf에서 텍스트만 추출한다면, python 이나 java 로 된 라이브러리를 통해 추출한것을 db 에 저장하는 방식이 적당할것 같네요.
데이타를 추출한뒤에 전문 검색을 할수 있겠죠.
댓글을 작성하려면 로그인이 필요합니다.
방법이 없지는 않지만 쉬운 작업이 아닙니다. 제작의뢰로 의뢰 해 보는것이 좋을 듯 합니다
검색해 본 결과인데 참고해 보세요
https://coronasdk.tistory.com/582
댓글을 작성하려면 로그인이 필요합니다.
답변을 작성하려면 로그인이 필요합니다.
로그인