웹사이트 크롤러

Tak2

· 2년 전 · 조회 1060 1060 · 댓글 4 4

링크

https://dsclub.kr/bbs/board.php?bo_table=code&wr_id=276 (71)

<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>웹 페이지 크롤링 및 파일 압축 다운로드</title>
</head>
<body>
<h1>웹 페이지 크롤링 및 파일 압축 다운로드</h1>
<form action="" method="post">
<label for="url">크롤링할 웹 페이지 URL:</label><br>
<input type="text" name="url" id="url" size="50" required><br>
<button type="submit" name="submit">크롤링 및 파일 압축 다운로드</button>
</form>
<?php

function isCrawlingAllowed($url) {
$parsedUrl = parse_url($url);
$robotsUrl = $parsedUrl['scheme'] . '://' . $parsedUrl['host'] . '/robots.txt';

$robotsContent = @file_get_contents($robotsUrl);
if ($robotsContent === false) {
return true; // robots.txt 파일이 없는 경우 크롤링 허용
}

$allow = true;
$disallowPaths = array();
$lines = explode("\n", $robotsContent);
foreach ($lines as $line) {
if (strpos($line, 'Disallow:') === 0) {
$disallowPath = trim(substr($line, strlen('Disallow:')));
if (!empty($disallowPath)) {
$disallowPaths[] = $disallowPath;
}
}
}

// 확인하려는 경로가 Disallow 경로인지 체크
foreach ($disallowPaths as $path) {
if (strpos($url, $path) !== false) {
$allow = false;
break;
}
}

return $allow;

}

if (isset($_POST["submit"])) {
if ($_SERVER["REQUEST_METHOD"] == "POST") {
// 클라이언트로부터 URL 또는 도메인 입력 받기
$input = $_POST["url"];
$url = filter_var($input, FILTER_VALIDATE_URL) ? $input : getDomain($input);

// URL 유효성 검사 (URL 형식 또는 도메인 형식인지 확인)
if (filter_var($url, FILTER_VALIDATE_URL) === false) {
die("유효하지 않은 URL 또는 도메인입니다.");
}

// 웹 페이지 HTML 내용 가져오기
$html = file_get_contents($url);

// 웹 페이지에서 모든 링크 추출
$linkFiles = array();
preg_match_all('/<a\s+href="([^"]+)"/i', $html, $matches);
foreach ($matches[1] as $linkUrl) {
$linkFiles[] = $linkUrl;
}

// 웹 페이지에서 CSS 파일 추출
$cssFiles = array();
preg_match_all('/<link\s+rel="stylesheet"\s+href="([^"]+)"/i', $html, $matches);
foreach ($matches[1] as $cssUrl) {
$cssContent = file_get_contents($cssUrl);
$cssFilename = basename($cssUrl);
file_put_contents($cssFilename, $cssContent);
$cssFiles[] = $cssFilename;
}

// 웹 페이지에서 JavaScript 파일 추출
$jsFiles = array();
preg_match_all('/<script\s+src="([^"]+)"/i', $html, $matches);
foreach ($matches[1] as $jsUrl) {
$jsContent = file_get_contents($jsUrl);
$jsFilename = basename($jsUrl);
file_put_contents($jsFilename, $jsContent);
$jsFiles[] = $jsFilename;
}

// 웹 페이지에서 이미지 URL 추출
$imageFiles = array();
preg_match_all('/<img\s+src="([^"]+)"/i', $html, $matches);
foreach ($matches[1] as $imageUrl) {
// 이미지 파일 다운로드
$imageContent = file_get_contents($imageUrl);
$imageFilename = basename($imageUrl);
file_put_contents($imageFilename, $imageContent);
$imageFiles[] = $imageFilename;
}

// HTML, CSS, JS, 이미지 파일들을 Gzip 압축하여 저장
$zipFilename = "crawled_files.zip";

// ZipArchive 클래스를 사용하여 압축 파일 생성
$zip = new ZipArchive();
if ($zip->open($zipFilename, ZipArchive::CREATE) === true) {
$zip->addFromString('crawled_page.html', $html);
// 링크 파일들을 텍스트 파일로 압축 파일에 추가
$linkText = implode(PHP_EOL, $linkFiles);
$zip->addFromString('links.txt', $linkText);
foreach ($cssFiles as $cssFilename) {
$zip->addFile($cssFilename);
}
foreach ($jsFiles as $jsFilename) {
$zip->addFile($jsFilename);
}
foreach ($imageFiles as $imageFilename) {
$zip->addFile($imageFilename);
}
$zip->close();

// 다운로드 처리 (gzip이 아닌 zip 파일로 변경)
header('Content-Type: application/zip');
header('Content-Disposition: attachment; filename="' . $zipFilename . '"');
readfile($zipFilename);

// 임시 파일 삭제
unlink('crawled_page.html');
foreach ($cssFiles as $cssFilename) {
unlink($cssFilename);
}
foreach ($jsFiles as $jsFilename) {
unlink($jsFilename);
}
foreach ($imageFiles as $imageFilename) {
unlink($imageFilename);
}
unlink($zipFilename);
} else {
echo "압축 파일을 생성할 수 없습니다.";
}
}
}
?>
<h2 style='font-size:1em'><a href='https://dsclub.kr'>Produced by Tak2</a></h2>
</body>
</html>

입력한 웹사이트(링크)의 이미지,html,css,js,모든 link(link.txt 형태로 저장됨)을 압축파일로 제공합니다.

파일 다운로드링크: https://dsclub.kr/bbs/board.php?bo_table=code&wr_id=276

댓글 작성

댓글을 작성하시려면 로그인이 필요합니다.

로그인하기

댓글 4개

Tak2

프로필 보기 이 회원 글보기

2년 전

웹 사이트의 robots.txt 파일에 따라 크롤링을 제어되어 합법적으로 크롤링을 할 수 있습니다.

너무초보ㅠㅠ

프로필 보기 이 회원 글보기

2년 전

어떻게 사용 하나요? 사용방법이 없네요

Tak2

프로필 보기 이 회원 글보기

2년 전

php파일을 다운받은 뒤 실행해보세요. input 항목에 링크를 입력하면 됩니다

그누소스

프로필 보기 이 회원 글보기

2년 전

좋은 팁이네요 감사합니다.

게시글 목록

번호	제목	글쓴이	조회	날짜
17591	node.js 노드로 멀티스레드 기능 구현하기 2	swallow	1,091	2년 전
17590	PHP PHP에서 대량의 푸시 메시지를 보내기 위한 팁 5	swallow	2,513	2년 전
17589	PHP PHP로 인쇄명령주기 1	swallow	1,277	2년 전
17588	JavaScript Javascript로 JSON데이터를 보기좋게 만들기	swallow	676	2년 전
17587	node.js NodeJS에서 콘솔명령 실행하고 그 리턴값을 파일로 저장하기	swallow	660	2년 전
17584	node.js NodeJS CORS (Cross-Origin Resource Sharing) 허용하기 2	swallow	767	2년 전
17583	MySQL MySQL과 PostgreSQL의 우단점	swallow	789	2년 전
17582	MySQL 프로시저 cursor 사용 예	하얀감자	767	2년 전
17581	JavaScript 바닐라 ajax 파일업로드 예제	비타주리	971	2년 전
17579	웹서버 PHP에서 CORS (Cross-Origin Resource Sharing) 허용하기 1	swallow	3,980	2년 전
17577	PHP PHP로 AES-256-GCM 복호화	swallow	889	2년 전
17575	PHP PHP와 NodeJS의 강점 2	swallow	1,372	2년 전
17574	기타 트래픽 로그(실시간?) 그래프로 보기?	Tak2	744	2년 전
17573	jQuery jquery datepicker 선택한 날짜의 요일을 얻기	swallow	2,024	2년 전
17572	크롤러 *업데이트	Tak2	603	2년 전
17569	게시글 본문에서 qr코드 출력 (gpt) 3	Tak2	1,159	2년 전
17564	웹사이트 크롤러 4 현재글	Tak2	1,061	2년 전
17560	PHP PHP에서 가상 게이트웨이를 구현하여 패킷 라우팅 1	swallow	1,016	2년 전
17559	MySQL 프로시저 기본편	하얀감자	715	2년 전
17555	PHP PHP에서 특정 네트워크 인터페이스(망카드)를 선택하여 통신 2	swallow	832	2년 전
17554	PHP PHP로 웹소켓서버를 창조하는 방법 한가지 1	swallow	1,801	2년 전
17553	PHP MSSQL서버에 접속하지 못할때	슈퍼디브	565	2년 전
17552	node.js NodeJS로 ffmpeg 사용하여 rtsp 데이터를 websocket 으로 방송하기 2	swallow	4,073	2년 전
17549	PHP PHP로 백그라운드 서비스를 실행하는 방법 1	swallow	1,309	2년 전
17548	기타 이전글,다음글 기능이 안되는 경우	techstar	552	2년 전
17547	PHP 아파치, PHP에서 MSSQL 리용할때	슈퍼디브	643	2년 전
17542	MVC구조의 PHP프레임워크들이 꼭 사용하는 spl_autoload_register() 4	swallow	894	2년 전
17533	mp4 미디어바 중앙정렬 8	비타주리	863	2년 전
17531	Laravel에서 php artisan migrate --seed 실행시 "Specified key was too long error" 오류발생 1	슈퍼디브	510	2년 전
17524	상단으로 를 상하 이동 및 퍼센트 표시 하기 6	들레아빠	984	2년 전

이전 다음

4 5 6 7 8

전체 목록

강좌