카테고리 없음
[JavaScript] JavaScript를 이용한 Web crawling - 2
갈푸라떼
2022. 5. 10. 01:43
JavaScript를 이용하여서 Daum news Crawling하기
* 개발환경셋팅
- vscode
- node
* node package셋팅해주기
- npm install --save axiox
- CDN을 이용하여도 된다.
- npm install cheerio
* package에 대한 간략한 설명
- axiox : http request를 조금 더 쉽게 보낼 수 있게 도와주는 패키지
- cheerio : 가져온 html을 조금 더 쉽게 가공할 수 있게 해주는 패키지
// 모듈 가져오기
const axios = require('axios');
const cheerio = require('cheerio');
axios, cheerio모듈을 가져와준다.
function newsCrawler() {
const URL = `https://news.daum.net/`;
axios.get(URL).then(res => {
console.log(res.status);
}
}
newsCrawler();
newsCrawler라는 함수를 만들어주고 해당 함수안에 상수URL을 선언해준다.
axios를 이용하여서 상수URL에 지정해놓은 url로 get요청 보낸다.
axios를 통해서 get요청을 보내면 Promise객체가 반환이 된다.
* res.status를 console창에 출력해보면 정상적으로 get요청이 되었으면 200응답을 출력이 될것이다.
const axios = require('axios');
const cheerio = require('cheerio');
function newsCrawler() {
const URL = `https://news.daum.net/`;
axios.get(URL).then(res => {
console.log(res.status)
if(res.status == 200) {
//empty array
let crawledNews= [];
//res.data에 있는 tag를 cheerio로 검색하여 변수에 담기
const $ = cheerio.load(res.data);
const $newsList = $('body > div.container-doc > main > section > div > div.content-article > div.box_g.box_news_issue > ul > li');
$newsList.each(function(i) {
console.log(i)
})
}
})
}
newsCrawler()
* crawledMusic이라는 비어있는array를 만들어준다. 해당 array에 crawling해온 data를 빈array에 push할 것이다.
> [ {title : "제목", summary : "....", img : "....."}, {}, {}, {} ] 형태로 데이터를 가져올 것
* res.data에 있는 tag를 cheerio로 검색하여 변수 $ 에 담아줄것이다.
* JQuery형태로 데이터를 가공하기 위한 변수 ( $ )
const axios = require('axios');
const cheerio = require('cheerio');
function newsCrawler() {
const url = `https://news.daum.net/`;
axios.get(url)
.then(res => {
console.log(res.status);
if(res.status == 200) {
let crawledNews= [];
const $ = cheerio.load(res.data);
const $newsList = $('body > div.container-doc > main > section > div > div.content-article > div.box_g.box_news_issue > ul > li');
$newsList.each(function(i) {
crawledNews[i] = {
title : $(this).find('li > div > div.cont_thumb > strong > a').text().trim(),
summary : $(this).find('li > div > div > span > span.txt_category').text(),
img : $(this).find('li > div > a > img').attr('src')
};
});
console.log(crawledNews);
} else {
console.log("서버 응답 오류")
}
});
}
newsCrawler();
* 크롬개발자에 들어가서 Daum news페이지에 들어가서 JS path를 참고하여 경로를 가져온다.
* title : 해당 경로의 text만 가지고 오기위해 text함수와 공백제거를 위하여 trim함수를 이용하였다.
* summary : 해당 경로의 text만 추출
* img : 해당경로의 src를 추출하기위해 attr함수를 이용하였다.
비어있는 array crawledMusic안에 객체형태의 데이터(daum news)가 담겨있을것이다.