[41일] 크롤링 (1) - 개요 및 jsoup 라이브러리 설치
크롤링
크롤링(Crawling) 혹은 스크래핑(Scraping)은 특정 웹 페이지에서 데이터를 자동으로 추출해 내는 행위이다. 크롤링을 할 때는 조심해야 한다. 크롤링한 데이터로 이윤을 창출할 경우 법에 저촉될 수 있기 때문이다. 따라서 크롤링이 가능한 지 먼저 확인할 필요가 있다.
로봇 배제 표준(robots.txt)은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약이다. 사이트마다 대부분 아래와 같이 명시해놓기 때문에 확인해보자
https://www.daum.net/robots.txt
https://www.naver.com/robots.txt
http://world.kbs.co.kr/robots.txt
http://ytn.co.kr/robots.txt
jsoup
우리는 크롤링을 위해 만들어진 라이브러리를 사용할 것이다. jsoup 라이브러리가 그것이다. jsoup은 자바로 만들어진 HTML parser다. 컴퓨터과학에서 파싱(parsing)은 일련의 문자열을 의미있는 토큰(token)으로 분해하고 이들로 이루어진 파스 트리(parse tree)를 만드는 과정을 말한다. 이런 파싱 작업을 하는 프로그램이 parser이다. Jsoup은 DOM 구조를 추적하거나 CSS 선택자를 사용하여 데이터를 찾아 추출할 수 있다.
설치
이제 jsoup 라이브러리를 다운로드 받아보자 https://jsoup.org/download
Download and install jsoup
Download and install jsoup jsoup is available as a downloadable .jar java library. The current release version is 1.15.3. What's new See the 1.15.3 release announcement for the latest changes, or the changelog for the full history. Previous releases of jso
jsoup.org
계속 최신버전이 올라오니 최신버전으로 다운로드 받으면 된다.
이제 다운받은 .jar 파일을 라이브러리 폴더에 넣자. 크롤링을 위해 새로운 Dynamic Web Project 생성할 것이고 프로젝트 명은 basic03_crawling으로 하겠다.
이렇게 jar파일을 라이브러리에 추가해주면 jsoup을 사용하기 위한 준비가 끝났다.
※ 참고
외부라이브러리 추가 시 해당 프로젝트를 새로고침하는 것이 좋다.
- 해당프로젝트 우클릭 F5
- 해당프로젝트 우클릭 Validate
- 메뉴 Project -> Clean
※ 참고
Overview (jsoup Java HTML Parser 1.15.3 API)
jsoup: Java HTML parser that makes sense of real-world HTML soup. jsoup is a Java library for working with real-world HTML. It provides a very convenient API for fetching URLs and extracting and manipulating data, using the best of HTML5 DOM methods and CS
jsoup.org