[Python] HWP 파일을 불러오기
리눅스 백엔드에서 HWP 파일을 처리하는 것은 상당히 골치아픈 일입니다.
다행히 Python에는 HWP 파일을 핸들링하는 모듈도 있습니다 ^^
1. Olefile
[code]
import olefile
f = olefile.OleFileIO('한컴파일.hwp') # HWP 파일 열기
encoded_text = f.openstream('PrvText').read() # PrvText 스트림의 내용 꺼내기
decoded_text = encoded_text.decode('UTF-16') # 유니코드를 UTF-16으로 디코딩
print(decoded_text)
[/code]
Olefile 모듈은 Microsoft OLE2 파일을 조작하기 위한 모듈로서
위와 같은 방법으로 한컴 HWP 파일도 불러올 수 있습니다 ^^
2. PyHWP의 HWP5TXT
[code]
from subprocess import Popen, PIPE
file = '한컴파일.hwp'
process = Popen(['hwp5txt', file], stdout=PIPE, stderr=PIPE)
stdout, stderr = process.communicate()
data = stdout.decode('utf-8')
print(data)
[/code]
PyHWP 모듈은 Olefile에 dependent하기 때문에
Olefile에서 제대로 불러오지 못하는 HWP 파일의 경우
PyHWP에서도 마찬가지로 잘 불러올 수 없다는 문제가 있습니다.
그러한 경우에 위와 같이 PyHWP 설치시 함께 설치되는 hwp5txt.exe 파일을 이용하면
대부분의 문제를 해결할 수 있습니다 ^^
다만 EXE 파일이므로 윈도우 환경에서만 실행 가능하다는 한계가 있습니다.
게시글 목록
| 번호 | 제목 |
|---|---|
| 17819 |
JavaScript
당신이 알아야 할 자바스크립트의 강력한 7가지 팁
3
|
| 17818 |
JavaScript
자바스크립트 코드를 더 깔끔하고 보기 좋게 작성하는 팁
1
|
| 17817 |
PHP
chatgtp
|
| 17816 |
JavaScript
textarea 자동 높이 설정하기.
1
|
| 17814 | |
| 17811 |
JavaScript
자바스크립트 플래이그라운드 - RUNJS
|
| 17810 | |
| 17809 | |
| 17808 |
JavaScript
16진수 색상코드 확인함수
|
| 17803 | |
| 17799 | |
| 17798 | |
| 17797 |
JavaScript
동영상파일 썸네일 만들기
8
|
| 17795 |
JavaScript
div태그의 사이즈가 변경되는 이벤트를 처리하기
|
| 17794 |
JavaScript
초->hh:mm:ss로 변환하는 함수
1
|
| 17793 |
JavaScript
JSON Beautify
|
| 17790 |
PHP
JSONP실례
|
| 17789 | |
| 17786 |
JavaScript
ThreeJS로 3디지구에 포인트 찍고 정보 현시기능
|
| 17774 | |
| 17760 | |
| 17755 | |
| 17750 | |
| 17729 | |
| 17722 | |
| 17714 | |
| 17708 | |
| 17686 | |
| 17676 |
JavaScript
유튜브 풀화면 묵음배경 예제
9
|
| 17666 |
댓글 작성
댓글을 작성하시려면 로그인이 필요합니다.
로그인하기