웹 크롤링(Web crawling) 1.-- CGV 무비차트 크롤링
웹크롤링 2021. 8. 23. 18:03

무비차트는 기본적으로 top 7까지 소개하는 식으로 되어있다. 웹 크롤링을 이용하면 이 무비차트를 직접 들여다 보지 않고도 언제든 원하는 순위들을 뽑아낼 수 있다. 1. 두가지 모듈과 함수를 호출 urllib이라는 모듈을 호출하자. 이 모듈에서 request 함수를 req라는 이름으로 꺼내쓰도록 하자. (알리아스) 웹 크롤링 소개에서도 말했던 Beautifulsoup역시 bs4라는 모듈에서 호출해야한다. req.urlopen으로 무비차트의 url을 불러왔으나 이상한 코드가 출력될 것이다. 바로 이때가 beautifulsoup을 쓸 차례다. 이 정제된 코드는 웹 크롤링의 '광산'이다. 이제부터 이 코드를 이해하고, 원하는 대로 뽑아낼 수 있어야한다. 다시 무비차트 페이지로 돌아가자. 이제 서버가 작성해 놓..

웹 크롤링(Web crawling) 0.소개
웹크롤링 2021. 8. 23. 14:10

웹 페이지의 내용을 온전히 가져오거나 일부를 추출해내는 것을 '웹 크롤링(Web crawling)이라고 한다. 거미가 촘촘히 짜여진 거미줄에서 기어다니며 걸려든 먹이를 찾아먹는 모습을 상상해보자. 이와 비슷하게도, 이미 만들어졌거나 상용화된 웹 페이지에서 필요한 정보를 추출하는 행위라는 뜻에서 'Crawl'이라는 단어를 쓰는 듯 하다. 파이썬의 다양한 라이브러리는 이미 자명한지라, 웹 크롤링 역시 'beautifulsoup' 등의 라이브러리를 사용한다고 보면된다. (다른 라이브러리와의 차이점은 생략) 웹 크롤링은 통계관련 종사자가 아니더라도 비전공자가 업무자동화 용도로 쓰면서 많이 대중화 된 추세다. 파이썬의 기본적인 것들을 알면 코드를 이해하는데는 전혀 어렵지 않고, 다만 알고 있어야 할 규칙(?) 정..