이번 게시글에서 다루는 크롤링 과정은 학교에서 듣는 데이터베이스 프로젝트를 위한 것입니다.
사이트에서 데이터를 크롤링해서 상업적으로 이용하면 안 됩니다.
크롤링을 하기 위해 주피터 노트북과 chrome driver를 사용하겠습니다.
위 사이트에 접속해서 자신의 크롬 버전에 맞는 파일을 다운받는다.
자신의 크롬 버전은 도움말에서 Chrome 정보에서 확인할 수 있다.
다운받은 파일은 Crawling이라는 폴더를 만들어 이 폴더에 저장해주었다. 이후 코드를 작성할 파일도 이 폴더에 저장해주면 된다.
우선, 터미널에 'jupyter notebook'을 입력한다.
그리고 Crawling 파일을 저장한 곳으로 이동해 오른쪽 위에 New 버튼을 누르고 Python 3을 클릭한다.
데이터분석 라이브러리인 pandas
웹 브라우저 자동화를 위한 selenium
서버와의 통신 간격 조정을 위한 time 등을 사용하였다.
위와 같은 코드를 작성해 크롤링을 진행하였다.
'공부하면서 얻은 지식들' 카테고리의 다른 글
파일 모드 (r모드, w모드, a모드, +) (0) | 2022.10.22 |
---|---|
JSX (0) | 2022.07.03 |
터미널에서 자바 버전 바꾸기 (0) | 2022.05.22 |
MacOS M1 / homebrew 저장소 위치 (0) | 2022.04.08 |
Import "bs4" could not be resolved from source 해결법 (2) | 2022.04.03 |