웹 크롤링(Web crawling) 0.소개

웹 페이지의 내용을 온전히 가져오거나 일부를 추출해내는 것을 '웹 크롤링(Web crawling)이라고 한다.
거미가 촘촘히 짜여진 거미줄에서 기어다니며 걸려든 먹이를 찾아먹는 모습을 상상해보자.
이와 비슷하게도, 이미 만들어졌거나 상용화된 웹 페이지에서 필요한 정보를 추출하는 행위라는 뜻에서 'Crawl'이라는 단어를 쓰는 듯 하다.
파이썬의 다양한 라이브러리는 이미 자명한지라, 웹 크롤링 역시 'beautifulsoup' 등의 라이브러리를 사용한다고 보면된다. (다른 라이브러리와의 차이점은 생략)

정제되지 않은 긁어온 코드를 정제해주는 번역용도 정도로 생각하자.

웹 크롤링은 통계관련 종사자가 아니더라도 비전공자가 업무자동화 용도로 쓰면서 많이 대중화 된 추세다.
파이썬의 기본적인 것들을 알면 코드를 이해하는데는 전혀 어렵지 않고, 다만 알고 있어야 할 규칙(?) 정도는 있기 때문에 익숙해지려면 본인만의 크롤링 습관을 만들어 놓는게 중요할 것 같다.

'웹크롤링' 카테고리의 다른 글

웹 크롤링(Web crawling) 1.-- CGV 무비차트 크롤링  (0) 2021.08.23