웹 크롤링(Web crawling) 0.소개
웹크롤링 2021. 8. 23. 14:10

웹 페이지의 내용을 온전히 가져오거나 일부를 추출해내는 것을 '웹 크롤링(Web crawling)이라고 한다. 거미가 촘촘히 짜여진 거미줄에서 기어다니며 걸려든 먹이를 찾아먹는 모습을 상상해보자. 이와 비슷하게도, 이미 만들어졌거나 상용화된 웹 페이지에서 필요한 정보를 추출하는 행위라는 뜻에서 'Crawl'이라는 단어를 쓰는 듯 하다. 파이썬의 다양한 라이브러리는 이미 자명한지라, 웹 크롤링 역시 'beautifulsoup' 등의 라이브러리를 사용한다고 보면된다. (다른 라이브러리와의 차이점은 생략) 웹 크롤링은 통계관련 종사자가 아니더라도 비전공자가 업무자동화 용도로 쓰면서 많이 대중화 된 추세다. 파이썬의 기본적인 것들을 알면 코드를 이해하는데는 전혀 어렵지 않고, 다만 알고 있어야 할 규칙(?) 정..

<용의자 X의 헌신> by 히가시노 게이고---추리/미스테리 소설 리뷰 **스포 주의**
독서 2021. 8. 18. 09:01

무더위도 어느덧 약해진 8월 중순이 되었다. 아침/저녁으로는 시원한 바람을 느낄 수 있게 되었다. 그리고 오늘 소개할 히가시노 게이고의 바로 이 책이 아마 이런 가을틱한 날씨와 어울리는 책이 아닌가 싶다. 방황하는 칼날을 읽고 난 후 히가시노 게이고의 명작들을 읽어보기로 결심했었다. 그 첫 시도가 이 책이기도 하다. 북커버를 보면 미지수 'X'의 형태가 익숙치 않은가? 수학에서 미지수로 표기하던 문체의 X를 떠올렸다면 정답이다. 이 책을 3가지 키워드로 정리하자면, 아마 '사랑', '배신', '헌신' 이 아닐까. 일방적인 사랑에서 시작된 천재 수학자의 도움이, 다른 사람을 사랑하고 있는 그녀에게 약간의 배신감을 느꼈음에도 불구하고 끝내 그녀를 위해 자신을 헌신하여 희생한 것이다. 이시가미의 범행 트릭은 ..

<방황하는 칼날> by 히가시노 게이고 ---- 추리/미스테리 소설 리뷰(스포 주의)
독서 2021. 8. 12. 11:02

오늘은 히가시노 게이고의 또 다른 장편소설을 리뷰해보겠다. 이 책은 약 일주일 전에 (11일 기준) 2쇄가 된 따끈따끈한 책이다. 하지만 작품에 대한 정보를 찾아보니, 2013년에 이미 우리나라에서도 영화로 찍은 작품이었다. ** 줄거리 ** 아내를 잃고 딸 에마와 단 둘이 사는 나가미네는 어느 날 친구들과 유카타를 입고 불꽃놀이 축제에 가서 돌아오지 않는 에마를 걱정했다. 사건이 일어난 것이 틀림없다. 사건은 이렇다. 에마는 스가노 게이지, 도모자키 야쓰야라는 불량 청소년들에게 납치 당해 무참히 강간당하고, 다음 날 강에서 알몸으로 시체가 발견되었다. 나가미네는 형용할 수 없는 분노감에 차올랐다. 그놈들은 분명 약한 소년법을 이용해 대담한 범죄를 아무렇게나 저지른 것이라고 생각했다. 그들이 경찰에 잡혀..

<그녀는 다 계획이 있다> by 히가시노 게이고 ----추리/미스테리 소설 리뷰(스포x)
독서 2021. 8. 11. 09:18

** 필자는 우선 독서광이 아니라는 점을 밝히고 시작하겠다...(표현이 정확하진 않을 수 있으나 최대한 솔직하게 리뷰해보도록 하겠다.) ** 이번 3달이라는 기나긴 여름방학에 기필코 첫 자격증 하나를 따겠다는 목표를 세우고 약 2달간을 달려왔지만... 아니나 다를까 내 체력이 뒷받침해주질 못하여 목표량의 2/3 정도만을 이룬 채 (실패라고 봐야겠다 ㅎㅎ...) 남은 1달은 스트레스 없는 일종의 휴식기를 가지기로 했다. 그런데 문득 뒹굴거리다 눈에 들어온 책이 있었는데, 내 여동생이 가지고 있던 책 중 하나인 이라는 책이었다. 1년 독서량이 1권이 채 될까말까 한 나로써는 진귀한 경험을 했다 ㅋㅋ.... (반나절만에 다 읽어버린것 ㄷ) 뭐 시원시원한 네러티브 형식의 서술방식이라서 술 잘 읽혀서 그런 것도 ..

중간비교: K-nn, Naive Bayes, Dicision Tree의 특징비교
데이터 마이닝 (머신 러닝) 2021. 4. 5. 15:45

K-nn: 방법론 자체만 놓고보면 굉장히 단순하고 효율적이다. (실제 모델을 만드는 다른 기법과는 달리 모델을 생성하는 것이 아니기 때문) 하지만 모델이 없기 때문에 classification자체는 느리다고 할 수 있다. (새로운 것이 바로바로 분류x) 훈련데이터를 학습이 아닌 저장을 하기 때문에 (비모수학습) 많은 메모리를 많이 차지하기도 한다. 범주형같은 명목형 데이터는(거리기반이라) factor로 다 바꾸어줘야 하고, 결측된 데이터가 있다면 빼거나 새로 추가해서 관리해야한다는 단점도 존재한다. --->요약: 단순하나 실질적으로 느린분류, 모델만들기: X, 데이터의 종류와 손실에 민감함 Naive Bayes: 확률적인 방법론을 사용하여 knn처럼 classification만 하는 것이 아니라, 그렇게..

K-nn(Lazy learning)- Classification by nearest neighbor
데이터 마이닝 (머신 러닝) 2021. 3. 29. 22:36

사자성어에도 유유상종이라는 말이 있듯이, 서로 가깝게 위치하는 사물이나 생명체들의 특성이 서로 비슷하거나 일치하는 것은 우리주변에선 흔히 볼 수 있는 현상이다. 머신러닝도 이런 특성을 가진 분류 알고리즘을 가지고 있는데, 그것이 바로 K-nn이다. 예를 들어 그림 1과 같이 단맛과 아삭거림, 이 두 가지 척도(변수)에 따라 음식종류를 분류(Classification)할 수 있다고 하자. 그림 1의 표를 그림 2의 2차원 그래프로 옮겨보면 위와 같을 것이다. x축은 단맛, y축은 아삭거림으로 설정한 것이다. 그림 2야 말로 정말 유유상종이 아닌가? 아삭거림에 상관없이 단맛이 높게 나타난 그룹은 과일그룹, 단맛에 상관없이 아삭거림이 높게 나타난 그룹은 채소그룹, 그리고 단맛과 아삭거림 모두 다 낮게 나타난 ..