본문 바로가기
내일배움단 개발일지

14. 4주차 - meta tag(메타 태그) 크롤링

by 새싹_v 2022. 8. 24.
728x90


 

 

 

meta tag(메타 태그) 크롤링

 

- 우리가 URL만 입력했는데, 자동으로 불러와지는 부분들이 있다.
- 바로 '제목', '썸네일 이미지', '내용'이다.

 

> meta 태그 알아보기

메타 태그는, <head></head> 부분에 들어가는, 눈으로 보이는 것(body) 외에 

사이트의 속성을 설명해주는 태그들이다.

ex) 구글 검색 시 표시될 설명문, 사이트 제목, 카톡 공유 시 표시 될 이미지 등

 

 

> 그중 or:image / og:title / og:description을 크롤링해보자!

 

1. meta_prac.py 파일을 만들기

 

title 가져오기

#meta_prac.py

import requests
from bs4 import BeautifulSoup

url = 'https://movie.naver.com/movie/bi/mi/basic.naver?code=191597'

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get(url,headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

# 여기에 코딩을 해서 meta tag를 먼저 가져와보겠습니다.

title = soup.select_one('meta[property="og:title"]')#meta의 property가 og:title인 애를 가져와라

print(title)

결과

 

 

우린 여기서 content 만 필요하기 때문에 위 코드에 ['content']를 추가해준다.

import requests
from bs4 import BeautifulSoup

url = 'https://movie.naver.com/movie/bi/mi/basic.naver?code=191597'

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get(url,headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

# 여기에 코딩을 해서 meta tag를 먼저 가져와보겠습니다.


title = soup.select_one('meta[property="og:title"]')['content']#meta의 property가 og:title인 애를 가져와라
print(title)

결과

 

 

> 이제 or:image / og:title / og:description 전부 적용해보기!

#meta_prac.py

import requests
from bs4 import BeautifulSoup

url = 'https://movie.naver.com/movie/bi/mi/basic.naver?code=191597'

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get(url,headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

# 여기에 코딩을 해서 meta tag를 먼저 가져와보겠습니다.


title = soup.select_one('meta[property="og:title"]')['content']#meta의 property가 og:title인 애를 가져와라
image = soup.select_one('meta[property="og:image"]')['content']
desc = soup.select_one('meta[property="og:description"]')['content']

print(title, image, desc)

결과

 

 

 

위에 글 내용은 오류 사항이 존재할 수 있습니다!

수정 사항이 있을 시 알려주시면 감사하겠습니다.

728x90

'내일배움단 개발일지' 카테고리의 다른 글

16. 4주차 - 숙제  (0) 2022.08.25
15. 4주차 - 영화기록 사이트 만들기  (0) 2022.08.24
13. 4주차 - 화성땅 공동구매 사이트 만들기  (0) 2022.08.23
12. 4주차 - Flask  (0) 2022.08.21
11. 3주차 - 숙제  (0) 2022.08.20

댓글