Programming/Python_crawler

web crawler 준비] import requests, import ps4

midnightcoder 2022. 9. 25. 18:24

먼저, Web crawler 란?

 

특정 website에서 데이터를 가져와서 자동으로 데이터를 정리, 저장해주는 프로그램이다.

만드는 순서는

 

1. Python을 이용하여 데이터를 수집하고자 하는 웹페이지에 접속

2. 해당 페이지에 있는 HTML을 전부 다운받음

3. 원하는 글자 (tag 등)이 있는 부분을 찝어냄

4. 저장 또는 해당 데이터 사용

 

Web crawler (웹크롤러)를 위해서 두가지 라이브러리를 설치해야한다.

터미널에 아래와 같이 입력하여 설치 진행

pip install requests
pip install bs4

나는 windows10를 사용 중인데, 설치가 완료되었음에도 불구하고 

 

ImportError: No module named requests

ImportError: No module named bs4

 

위와 같은 에러(error)가 발생하였다.

 

해결방법

python -m pip install requests
python -m pip install bs4

위와같이 입력해서 다시 설치를 진행함

 

하지만, python 버전이 여러개 셋팅되어 있어서, interpreter를 바꿔주면서 해결하는 경우도 있다고 한다.

 

 VSCODE 하단에 특정부분을 눌러서 Python interpreter를 변경 할 수 있다. (아래 그림 참조)

 

사실 파이참에서는 잘작동하는데, VSCODE로 공부하는게 있어서 시도하다가 계속 오류나서 이거저거 방법을 시도했다.

 

실제 코딩하는거보다 저런 오류때문에 소비하는 시간이 더 많은것 같다..

 

실제 웹크롤러하는 과정은 따로 다룰예정이다.