글 쓰는게 여간 귀찮은게 아니다.. 암튼 다음으로 넘어가보면 이제 전에 만들었던 baseurl에 접속해서 리뷰들을 크롤링하는 단계다. #import한 패키지 목록 import re import pandas as pd import requests from tqdm import tqdm from bs4 import BeautifulSoup import time 일단 편의를 위해 영화는 주토피아로 정해놓았다. 베이스주소로 이동해보면 주토피아의 경우, 17921개의 리뷰들이 한 페이지당 10개씩 올라와있다. 따라서 총 페이지개수를 정할 수 있는데, 계산하기 귀찮으니 10개가 안되는 마지막 페이지는 버리고 총 리뷰수 % 10으로 정하자. 그럼 총 리뷰수를 가져오는 selector를 구하자 평점 수 부분은 scor..
그래..시작하자.. 일단 영화 리뷰를 크롤링 하기전에 url을 살펴보았다. 영화마다 고유 code를 갖고 있고 이거를 조합해서 영화페이지에 접근한다. 영화코드 데이터셋이 있으면 좋겠지만 없으니 사용자가 원하는 영화키워드로 검색을 시도하고 검색결과를 크롤링해 결과리스트에 href속성에있는 주소에서 code를 추출하기로 했다. 그러면 사용자가 입력한 영화검색키워드에 해당하는 검색결과는 어떻게 받아올까. 하이라이트한 위치에 검색키워드를 조합해서 접근하면 될 것 같다. from bs4 import BeautifulSoup movie = input("어떤 영화를 검색하시겠습니까? ") url = f'https://movie.naver.com/movie/search/result.naver?query={movie}&..
에러 'utf-8' codec can't decode byte 0xb3 in position 0: invalid start byte 파이썬에서 csv를 불러올때 한글을 인식하지 못 해 생긴다고 한다. data = pd.read_csv('주토피아review.csv', names = ['Review','Rank']) data 해결 encoding인자에 'euc-kr' 이나 'cp949'로 추가해주면 된다. 찾아보니 cp949가 더 범용적이라고 한다! 나도 왜인지 모르겠지만 euc-kr로 하니 오류가 났다. data = pd.read_csv('주토피아review.csv', encoding='cp949', names = ['Review','Rank']) data 잘 나오는구만... 해결!
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.