네이버 영화에서 평점을 크롤링해보자 네이버 영화에 들어가서 아무 영화나 하나 선택하자. https://movie.naver.com/movie/bi/mi/point.naver?code=201641#tab 공조2: 인터내셔날 공조 이즈 백! 이번엔 삼각 공조다!남한으로 숨어든 글로벌 범죄 조직을 잡기 위해 새로운 공조 수사에 ... movie.naver.com 이제 url을 분석해야 한다. 관람객 평점에서 2, 3... 페이지를 눌러보니 url에 변동이 없다. 여기서는 iframe을 이용하여 따로 만든 페이지에서 연결만 시켜놓았기 때문이다. 관람객 평점의 다른 페이지 url을 얻기 위해 페이지 번호에 우클릭 후 새 탭에서 열기나 새 창에서 열기를 하면 url 주소를 얻을 수 있다. https://movie...
우리는 앞서 파일 입출력을 하는 방법을 배웠다. 이번에는 크롤링한 결과를 파일에 출력하여 저장을 해보자 package crawling0923; import java.io.FileWriter; import java.io.PrintWriter; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Test04_choongang { public static void main(String[] args) { // 중앙정보처리학원 웹페이지의 공지사항 제목만 크롤링해서 choongang.txt 파일에 저장하기 try { //추가된..
크롤링 크롤링(Crawling) 혹은 스크래핑(Scraping)은 특정 웹 페이지에서 데이터를 자동으로 추출해 내는 행위이다. 크롤링을 할 때는 조심해야 한다. 크롤링한 데이터로 이윤을 창출할 경우 법에 저촉될 수 있기 때문이다. 따라서 크롤링이 가능한 지 먼저 확인할 필요가 있다. 로봇 배제 표준(robots.txt)은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약이다. 사이트마다 대부분 아래와 같이 명시해놓기 때문에 확인해보자 https://www.daum.net/robots.txt https://www.naver.com/robots.txt http://world.kbs.co.kr/robots.txt http://ytn.co.kr/robots.txt jsoup 우리는 크롤링을 위해 만들어진 라..
sungjuk 테이블에서 이름 순으로 정렬 후 행 번호 4~6만 조회하시오 이번에도 번호는 변수로 처리하여 조회하고자 하는 행 번호를 변경할 수 있게 하고자 한다. 먼저 SQL문을 작성하자 --문제) sungjuk 테이블에서 이름 순으로 정렬 후 행 번호 4~6만 조회하시오 1) SELECT uname, aver, addr FROM sungjuk ORDER BY uname; 2) rownum도 같이 정렬된다 SELECT uname, aver, addr, rownum FROM sungjuk ORDER BY uname 3) 1)의 결과를 셀프조인하고 rownum 추가하기 SELECT uname, aver, addr, rownum FROM ( SELECT uname, aver, addr FROM sungjuk..