갈푸라떼
갈푸라떼는 개발중
갈푸라떼
전체 방문자
오늘
어제
  • 분류 전체보기 (232)
    • CS (0)
      • CSinfo (0)
    • Frontend (15)
      • HTML,CSS (1)
      • Javascript (2)
      • React (0)
      • React Hook (12)
    • Backend (0)
      • Python (0)
      • Node.js (0)
      • php (0)
    • DB (2)
      • MySQL (2)
      • BigQuery (0)
      • Mongodb (0)
    • Study (186)
      • JavaScript (72)
      • JavaScript(Clean code) (50)
      • Node.js (11)
      • HTML,CSS (13)
      • React (30)
      • TypeScript (10)
      • React-Native (0)
    • Error (2)
      • error (2)
    • Git (22)
      • Git (22)
    • Help Coding (4)
      • Useful websites (3)

블로그 메뉴

  • 홈
  • 태그
  • 방명록
  • Github

공지사항

인기 글

태그

  • 심볼
  • 객체타입
  • 스코프 체인
  • 인터프리터
  • this
  • PM2
  • 이터러블
  • 렉시컬 환경
  • symbol
  • 실행 컨텍스트
  • 원시타입
  • function
  • prototype
  • 네이밍
  • 프로토타입
  • 정적 레벨
  • 함수
  • 싱글스레드
  • Arrow
  • 오버라이딩
  • Babel
  • structure
  • ECMAScript
  • 자바스크립트엔진
  • 상속
  • SPREAD
  • nodemon
  • class
  • 호이스팅
  • 컴파일러

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
갈푸라떼

갈푸라떼는 개발중

Frontend/Javascript

[JavaScript] JavaScript를 이용한 Web crawling

2022. 5. 8. 01:07

JavaScript를 이용하여서 멜론 TOP100 리스트 Crawling하기

* 개발환경셋팅

  • vscode
  • node

 

* node package셋팅해주기

  • npm install --save axiox
    • CDN을 이용하여도 된다.
  • npm install cheerio

 

* package에 대한 간략한 설명

  • axiox : http request를 조금 더 쉽게 보낼 수 있게 도와주는 패키지
  • cheerio : 가져온 html을 조금 더 쉽게 가공할 수 있게 해주는 패키지

 

// 모듈 가져오기
const axios = require('axios');
const cheerio = require('cheerio');

 

axios, cheerio모듈을 가져와준다.

 

function melonCrawler() {
    const URL = `https://www.melon.com/chart/index.htm`;
    
    axios.get(URL).then(res => {
      console.log(res.status);
    }
}

melonCrawler();

melonCrawler이라는 함수를 만들어주고 해당 함수안에 상수URL을 선언해준다.

axios를 이용하여서 상수URL에 지정해놓은 url로 get요청 보낸다.
axios를 통해서 get요청을 보내면 Promise객체가 반환이 된다.

 

* res.status를 console창에 출력해보면 정상적으로 get요청이 되었으면 200응답을 출력이 될것이다.

 

const axios = require('axios');
const cheerio = require('cheerio');

function melonCrawler() {
  const URL = `https://www.melon.com/chart/`;

  axios.get(URL).then(res => {
    console.log(res.status)
    if(res.status == 200) {

      //empty array
      let crawledMusic= [];

      //res.data에 있는 tag를 cheerio로 검색하여 변수에 담기
      const $ = cheerio.load(res.data);
      const $musicList = $('#lst50');

      $musicList.each(function(i) {
        console.log(i)
      })
    }
  })
}

melonCrawler()

* crawledMusic이라는 비어있는array를 만들어준다. 해당 array에 crawling해온 data를 빈array에 push할 것이다.

  > [ {title : "제목", artist: "....", img : "....."}, {}, {}, {} ] 형태로 데이터를 가져올 것

* res.data에 있는 tag를 cheerio로 검색하여 변수 $ 에 담아줄것이다.

* JQuery형태로 데이터를 가공하기 위한 변수 ( $ )

const axios = require('axios');
const cheerio = require('cheerio');

function melonCrawler() {
  const URL = `https://www.melon.com/chart/`;

  axios.get(URL).then(res => {
    console.log(res.status)
    if(res.status == 200) {

      // empty array
      let crawledMusic= [];

      // res.data에 있는 tag를 cheerio로 검색하여 변수에 담기
      const $ = cheerio.load(res.data);
      const $musicList = $('#lst50');

      $musicList.each(function(i) {
        crawledMusic[i] ={
          title : $(this).find('#lst50 > td > div > div > div.ellipsis.rank01 > span > a').text().trim(),
          artist : $(this).find('#lst50 > td > div > div > div.ellipsis.rank02 > a').text(),
          img : $(this).find('#lst50 > td > div > a > img').attr('src')
        };
      });
      console.log(crawledMusic)
    } else {
      console.log("server response error")
    }
  })
}

melonCrawler()

* 크롬개발자에 들어가서 멜론 TOP100페이지에 들어가서 JS path를 참고하여 경로를 가져온다.

* title : 해당 경로의 text만 가지고 오기위해 text함수와 공백제거를 위하여 trim함수를 이용하였다.

* artist : 해당 경로의 text만 추출

* img : 해당경로의 src를 추출하기위해 attr함수를 이용하였다.

 

비어있는 array crawledMusic안에 객체형태의 데이터(melon chart top100 list)가 담겨있을것이다.

 

'Frontend > Javascript' 카테고리의 다른 글

[코딩 컨벤션] 함수이름 앞에 언더바(_)를 쓰는 이유  (0) 2022.09.18
    'Frontend/Javascript' 카테고리의 다른 글
    • [코딩 컨벤션] 함수이름 앞에 언더바(_)를 쓰는 이유
    갈푸라떼
    갈푸라떼

    티스토리툴바