길고 귀찮았던 전처리 과정이 마무리 되었다. 이제 라벨링 된 값을 이용하여 긍/부정 키워드를 추출할 것이다. 시작하기 전에... 사실은 이제 긍정/부정을 나누는 모델을 만들어야한다. 어떤 리뷰가 있을 때, 이것이 긍정리뷰인가 부정리뷰인가 구분하는 모델이다. 그런데 이것은 우리가 실시간으로 크롤링하고 정제한 데이터를 가지고 만드는 것이아니다. 어떤 영화를 가져오냐에 따라 데이터 크기가 천차만별이고, 대부분의 데이터들은 긍정/부정비율이 편향되어있기 때문. 따라서, 분류모델은 https://github.com/e9t/nsmc/ 여기 있는 데이터를 가지고 나중에 따로 만들 것이다. 위의 데이터셋은 긍정 부정비율이 일정하고, 데이터셋의 크기도 충분히 크다. 그럼 지금 하는 일은, 분류 모델이 있고 그 모델로 분류..
전단계에서 못다한 전처리를 마무리하자. 이전까지는 데이터를 쪼개고, 필요없는 것을 걸러내는 작업을 했다면 지금부터는 그렇게 해서 남은 단어들을 벡터화하는 단계이다. 생각보다 전처리가 오래걸리고 힘들었다. 그냥 긍정/부정을 나누는 것만 했다면, 어느정도 정제만 하고 성능에 영향을 주지 않을 정도만 하면 되는데, 우리는 키워드 추출까지 해야한다. 추출한 키워드가 최대한 불용어가 되지 않도록 데이터를 많이 살펴보아야한다. 아무튼 시작한다. CountVectorizer from sklearn.feature_extraction.text import CountVectorizer CountVectorizer에 대해서는 강의 03 단어 카운트 (CountVectorizer) - 토닥토닥 파이썬 - 텍스트를 위한 머신러..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.