모듈 설치하기
스크립트 폴더에 있는 pip.exe 파일을 사용할 것이다.
cmd를 켜고,
"cd 복사한 경로" 명령어로 복사한 경로로 이동한다.
"pip install requests" 명령어로 모듈을 설치한다.
원래 로딩창처럼 쭉쭉 다운되는데, 나는 이미 다운받아서 그런거는 뜨지 않았다.
같은 방법으로
"pip install beautifulsoup4" 명령어로 모듈을 설치하면 된다.
requests 모듈 사용해보기
import requests
url = 'https://mingyu0403.tistory.com/'
response = requests.get(url)
print(response) # <Response [200]> # 200 코드는 성공했다는 뜻.
print(response.text) # 무수하게 많은 html 코드. <html>...</html>
beautifulsoup4 모듈 사용해보기
from bs4 import BeautifulSoup as bs
# 임시로 만든 html.
html='''
<html>
<head></head>
<body>
<li>
<a href='https://www.naver.com/'>네이버</a>
</li>
<li>
<a href='https://mingyu0403.tistory.com/'>민규야 개발하자</a>
</li>
</body>
</html>
'''
# 객체 생성. (html을 등록한다는 느낌인듯.)
soup = bs(html, 'html.parser')
# 태그 이름으로 검색하기. (가장 첫 번째에 있는 거 뽑아 옴.)
url = soup.find('a')
print(url) # <a href='https://www.naver.com/'>네이버</a>
# 태그 이름과 속성 값으로 검색하기.
url = soup.find('a', attrs={'href':'https://mingyu0403.tistory.com/'})
print(url) # <a href="https://mingyu0403.tistory.com/">민규야 개발하자</a>
# 태그 추출.
print(url) # <a href="https://mingyu0403.tistory.com/">민규야 개발하자</a>
# 태그의 속성 추출.
print(url.attrs) # {'href': 'https://mingyu0403.tistory.com/'}
# 태그의 속성 값 추출.
print(url.attrs['href']) # https://mingyu0403.tistory.com/
# 태그의 값 추출.
print(url.text) # 민규야 개발하자
둘 다 혼합해서 써보기
import requests
from bs4 import BeautifulSoup as bs
# request 모듈을 이용해서 URL 데이터 받아옴.
url = 'https://mingyu0403.tistory.com/'
response = requests.get(url)
# soup 객체 생성.
soup = bs(response.text, 'html.parser')
# 태그 추출 코드...
# ...... 등등.
'기타 > 파이썬' 카테고리의 다른 글
[Python] 기본 문법들 정리 (0) | 2021.06.12 |
---|---|
[Python] 모듈 만들어서 쓰기 (0) | 2021.05.16 |
[Python] os, shutil 모듈 사용하기 (0) | 2021.05.16 |
[Python] csv 파일 만들고, 안에 내용 쓰기 (2) | 2021.05.16 |