네이버 영화 리뷰 키워드분석 (1) 계획

겨울방학동안 데이터 청년 캠퍼스를 하면서 미니 프로젝트로 '네이버영화리뷰를 통한 핫 키워드 추출'을 하고있다.

모티브는 내가 진짜 좋아하는 드라마 스토브리그에서 구단에 사건에 생길때마다 네티즌들의 반응을 분석하고 시각화해서 아래와 같이 보여주는데, 나도 해보고 싶었음. 그래서 주제를 냈는데 팀플로 하게 되었다.

etc-image-0etc-image-1

근데 어떤 사건에 대한 네티즌 반응을 구하는게 쉽지는 않았다. 어디서 어떻게 모을거냐구ㅠㅠ

그래서 스토브리그처럼 하는 건 너무 어려울 것 같았고, 대신 긍/부정이 명확하고, 뽑아낼 수 있는 감정표현이 다양한게 없을까 생각하다가 리뷰들을 총정리해서 보여주는 게 있으면 좋겠다는 생각을 했다!

활용은 다양하게 할 수 있겠지만 먼저 영화 리뷰를 택했다. (자료가 많으니까 ㅎ)

아무튼 생각하고 있는 목표는 다음과 같다.


개발환경 아나콘다 가상환경, jupyter notebook,  파이썬 3.7.0

개발목표 1. 원하는 영화 타이핑 → 크롤링으로 검색결과 보여주기

             2. 영화 검색 → 웹사이트주소에서 영화코드 추출

             3. 영화 리뷰 크롤링 → csv파일로 저장

             4. 수집한 데이터 전처리 (띄어쓰기, 오타, 불용어, 사용자단어...)

             5. 리뷰를 분석하여 긍/부정 나누는 모델 생성

             6. 각 긍정/부정별로 의미있는 키워드 추출

             7. 위 사진처럼 시각화