본문 바로가기
내일배움단 개발일지

9. 3주차 - 파이썬 (패키지설치, 크롤링)

by 새싹_v 2022. 8. 16.
728x90


 

 

파이썬(python) 패키지 설치하기

 

👉 패키지, 라이브러리

Python에서 패키지는 모듈(일종의 기능을 묶음)을 모아 놓은 단위.

패키지의 묶음을 라이브러리라고 볼 수 있다.

외부 라이브러리를 사용하기 위해서 패키지를 설치한다.

 

패키지 설치 = 외부 라이브러리 설치

 

 

👉 pip(python install package)사용 - requests 패키지 설치해보기

앱을 설치할 때 앱스토어/플레이스토어를 가듯, 

새로운 프로젝트의 라이브러리를 가상환경(공구함)에 설치하려면 pip를 이용한다.

가상환경(virtual environment)
같은 시스템에서 실해오디는 다른 파이썬 응용 프로그램들의 동작에 영향을 주지 않기 위해, 파이썬 배포 패키지들을 설치하거나 업그레이드하는 것을 가능하게 하는 격리된 실행 환경이다.

 

(파이참기준) 파일(F) > 설정 > Python 인터프리터 > + > requests검색 > 패키지 설치

requests는 파이썬으로 HTTP 통신이 필요한 프로그램을 작성할 때 가장 많이 사용되는 라이브러리!

 

👉 패키지 사용해보기

결과

 

 

 

파이썬(python) 크롤링

 

웹스크래핑 해보기 (웹툰 제목)

 

패키지 추가 설치(beautifulsoup4)
bs4

 

> 웹툰 제목 가져오기!

- 항상 정확하지는 않으나, 크롬 개발자도구를 참고할 수도 있다.

1. 원하는 부분에서 마우스 오른쪽 클릭 > 검사

2. 원하는 태그에서 마우스 오른쪽 클릭

3. Copy > Copy selector로 선택자를 복사할 수 있음

태그 안의 텍스트를 찍고 싶을 땐 > 태그.text
태그 안의 속성을 찍고 싶을 땐 > 태그['속성']

 

 

> webtoon 크롤링해보기!

import requests
from bs4 import BeautifulSoup

# 타겟 URL을 읽어서 HTML를 받아오고,
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://comic.naver.com/webtoon/weekday',headers=headers)

# HTML을 BeautifulSoup이라는 라이브러리를 활용해 검색하기 용이한 상태로 만듦
# soup이라는 변수에 "파싱 용이해진 html"이 담긴 상태가 됨
# 이제 코딩을 통해 필요한 부분을 추출하면 된다.
soup = BeautifulSoup(data.text, 'html.parser')

# 웹툰 인기순위 가져와보기!

# select를 이용해서, tr들을 불러오기
webtoons = soup.select('#realTimeRankFavorite > li')

# webtoons (li들) 의 반복문을 돌리기
for webtoon in webtoons:
    # webtoon 안에 a 가 있으면,
    a_tag = webtoon.select_one('a')
    if a_tag is not None:
        # a의 text를 찍어본다.
        print(a_tag.text)

결과

 

 

 

 

 

위에 글 내용은 오류 사항이 존재할 수 있습니다!

수정 사항이 있을 시 알려주시면 감사하겠습니다.

 

 

728x90

'내일배움단 개발일지' 카테고리의 다른 글

11. 3주차 - 숙제  (0) 2022.08.20
10. 3주차 - 데이터베이스(DataBase), mongoDB  (0) 2022.08.19
8. 3주차 - 파이썬 (설치, 기초)  (0) 2022.08.12
7. 2주차 - 숙제  (0) 2022.08.11
6. 2주차 - JSON, Ajax  (0) 2022.08.10

댓글