네이버 영화 리뷰 키워드분석 (1) 계획

겨울방학동안 데이터 청년 캠퍼스를 하면서 미니 프로젝트로 '네이버영화리뷰를 통한 핫 키워드 추출'을 하고있다.

모티브는 내가 진짜 좋아하는 드라마 스토브리그에서 구단에 사건에 생길때마다 네티즌들의 반응을 분석하고 시각화해서 아래와 같이 보여주는데, 나도 해보고 싶었음. 그래서 주제를 냈는데 팀플로 하게 되었다.

근데 어떤 사건에 대한 네티즌 반응을 구하는게 쉽지는 않았다. 어디서 어떻게 모을거냐구ㅠㅠ

그래서 스토브리그처럼 하는 건 너무 어려울 것 같았고, 대신 긍/부정이 명확하고, 뽑아낼 수 있는 감정표현이 다양한게 없을까 생각하다가 리뷰들을 총정리해서 보여주는 게 있으면 좋겠다는 생각을 했다!

활용은 다양하게 할 수 있겠지만 먼저 영화 리뷰를 택했다. (자료가 많으니까 ㅎ)

아무튼 생각하고 있는 목표는 다음과 같다.


개발환경 아나콘다 가상환경, jupyter notebook,  파이썬 3.7.0

개발목표 1. 원하는 영화 타이핑 → 크롤링으로 검색결과 보여주기

             2. 영화 검색 → 웹사이트주소에서 영화코드 추출

             3. 영화 리뷰 크롤링 → csv파일로 저장

             4. 수집한 데이터 전처리 (띄어쓰기, 오타, 불용어, 사용자단어...)

             5. 리뷰를 분석하여 긍/부정 나누는 모델 생성

             6. 각 긍정/부정별로 의미있는 키워드 추출

             7. 위 사진처럼 시각화