크롤러 만들기 [4] - 게시물 제목 및 본문 수집 테스트

GolangKR

프로필 보기 이 회원 글보기

· 2년 전 · 조회 489 489

오랜만입니다.

그동안 퇴사하고 빈둥빈둥 노느라 글 쓰는 걸 까먹고 있었네요.

그럼 바로 시작하겠습니다.

저번 게시물에서는 게시글의 링크를 수집했습니다. 이제 이 링크를 따라 들어가서 해당 링크의 제목과 본문을 수집해봅시다.

/app/controllers/crawl_controller.go

- 제목과 본문을 수집할 수 있게 코드를 수정합니다.

[code]

package controllers

import (

"regexp"

"strconv"

"strings"

"github.com/go-resty/resty/v2"

)

func crawl(url string, reg map[string]string) ([]string, []string, []string, error) {

client := resty.New()

url = strings.Split(url, ":page:")[0]

var urlResult, contentResult, subjectResult []string

urlResult, err := boardCrawl(client, url, reg["url"])

if err != nil {

return nil, nil, nil, err

}

subjectResult, err := contentCrawl(client, urlResult, reg["subject"])

if err != nil {

return nil, nil, nil, err

}

contentResult, err := contentCrawl(client, urlResult, reg["content"])

if err != nil {

return nil, nil, nil, err

}

return urlResult, subjectResult, contentResult, nil

}

func boardCrawl(client *resty.Client, url string, regex string) ([]string, error) {

urlResult := make([]string, 0)

for i := 1; ; i++ {

strIndex := strconv.Itoa(i)

resp, err := client.R().Get(url + strIndex)

if err != nil {

return nil, err

}

regex = `(?m)` + regex

reg, err := regexp.Complie(regex)

if err != nil {

return nil, err

}

if len(reg.FindString(resp.String())) == 0 {

break

}

for _, match := range reg.FindAllString(resp.String(), -1) {

urlStr := strings.ReplaceAll(reg.FindStringSubmatch(match)[1], "&", "&")

urlResult = append(urlResult, urlStr)

}

return urlResult, nil

}

func contentCrawl(client *resty.Client, url []string, regex string) ([]string, error) {

result := make([]string, 0)

regex = `(?m)` + regex

reg, err := regexp.Complie(regex)

if err != nil {

return nil, err

}

for i := 0; i < len(url); i++ {

resp, err := client.R().Get(url[i])

if err != nil {

return result, err

}

for _, match := range reg.FindAllString(resp.String(), -1) {

result = append(result, reg.FindStringSubmatch(match)[1])

}

return result, nil

}

[/code]

이제 crawl 함수는 총 4개의 값을 반환합니다.

링크 모음, 제목 모음, 본문 모음, 에러

이 crawl 함수를 불러오는 부분도 수정해야 정상적으로 값을 받을 수 있습니다.

/app/controllers/web_controller.go

[code]

...

func Crawl(c *fiber.Ctx) error {

url := c.FormValue("url")

reg := make(map[string]string)

reg["url"] = c.FormValue("regex_url")

reg["subject"] = c.FormValue("regex_subject")

reg["content"] = c.FormValue("regex_content")

urlResult, subjectResult, contentResult, err := crawl(url, reg)

if err != nil {

return c.SendString(err.Error())

}

return c.SendString(fmt.Sprintf("%v\n\n\n%v\n\n\n%v", urlResult, subjectResult, contentResult)

}

[/code]

1030332716_1677842931.779.png

실행해보면

1030332716_1677842985.3083.png

링크와

1030332716_1677843000.3213.png

제목과

1030332716_1677843013.5512.png

본문 수집이 잘 되네요.

28초가 소요되었습니다. (2배가 걸리는 겁니다. 더 줄여야 합니다.)

이제 수집 결과를 반환할 때 쌩텍스트로 반환을 하는 것을

JSON으로 반환하게 만드는 것과 최적화가 목표가 되겠네요.

-> 미리보는 결과물 (이때 소요시간 14초)

1030332716_1677843192.7132.png

댓글 작성

댓글을 작성하시려면 로그인이 필요합니다.

로그인하기

게시글 목록

번호	제목	글쓴이	조회	날짜
92	글/댓글 생성 프로그램 만들기 [0]	고랭지농업	405	1년 전
82	golang으로 PHP와 통신하기 6	GolangKR	1,055	2년 전
80	golang 으로 그누보드 엔터프라이즈 버전이나 만들어 볼까요? 1	틀불	435	2년 전
79	크롤러 만들기 [5] - 최적화 및 JSON 으로 반환하기 1	GolangKR	667	2년 전
78	크롤러 만들기 [4] - 게시물 제목 및 본문 수집 테스트 현재글	GolangKR	490	2년 전
77	크롤러 만들기[3] - 웹 페이지 구현 및 수집 테스트	GolangKR	803	2년 전
76	크롤러 만들기[2] - 웹 서버 생성 및 웹 페이지 구현 테스트	GolangKR	486	2년 전
75	처음부터 다시하는 크롤러 만들기[1] - 프로젝트 구조	GolangKR	548	2년 전
72	구조체에대한 질문이 있어요. 2	라온헤윰	548	2년 전
65	Fiber로 간단한 API 서버 만들기	GolangKR	781	2년 전
64	Fiber로 간단하게 HTTP 서버 생성하기	GolangKR	953	2년 전
63	라이브 리로드 패키지 3	GolangKR	492	2년 전
62	오랜만에 왔습니다.	GolangKR	809	3년 전
57	Gopher.js	마젠토	844	3년 전
55	golang 강의 추천 ~ 개념부터 차근차근^^ 4	오리궁뒤	989	3년 전
54	Go 및 AWS를 사용하여 서버리스 API 코딩 및 배포	마젠토	922	3년 전
53	크롤러 만들기 (3)	GolangKR	1,520	4년 전
52	크롤러 만들기 (2)	GolangKR	1,257	4년 전
51	크롤러 만들기 (1) - 수정	GolangKR	1,083	4년 전
50	크롤러 만들기 (1)	GolangKR	1,143	4년 전
46	크롤러 만들기 (0) 2	GolangKR	1,133	4년 전
44	군 전역하고 다시 돌아왔습니다. 5	GolangKR	1,084	4년 전
43	Webp 썸네일	마젠토	1,090	4년 전
39	자동화 사이트 스크린샷하기 3	GolangKR	1,731	4년 전
34	Golang SQLC	마젠토	1,165	5년 전
29	golang 파싱하는 법.	GolangKR	2,190	5년 전
28	gopherjs	마젠토	1,559	5년 전
27	laragon에 최신 golang 넣기	마젠토	1,118	5년 전
26	[Udemy]React Golang 3	마젠토	1,344	5년 전
22	Golang 고루틴 1	GolangKR	1,185	5년 전

1 2

전체 목록

크롤러 만들기 [4] - 게시물 제목 및 본문 수집 테스트

댓글 작성

게시글 목록

소모임