네이버 영화 리뷰 키워드분석 (6) 키워드 추출
길고 귀찮았던 전처리 과정이 마무리 되었다. 이제 라벨링 된 값을 이용하여 긍/부정 키워드를 추출할 것이다. 시작하기 전에... 사실은 이제 긍정/부정을 나누는 모델을 만들어야한다. 어떤 리뷰가 있을 때, 이것이 긍정리뷰인가 부정리뷰인가 구분하는 모델이다. 그런데 이것은 우리가 실시간으로 크롤링하고 정제한 데이터를 가지고 만드는 것이아니다. 어떤 영화를 가져오냐에 따라 데이터 크기가 천차만별이고, 대부분의 데이터들은 긍정/부정비율이 편향되어있기 때문. 따라서, 분류모델은 https://github.com/e9t/nsmc/ 여기 있는 데이터를 가지고 나중에 따로 만들 것이다. 위의 데이터셋은 긍정 부정비율이 일정하고, 데이터셋의 크기도 충분히 크다. 그럼 지금 하는 일은, 분류 모델이 있고 그 모델로 분류..