어쩌다보니 코딩하는 직장인
close
프로필 배경
프로필 로고

어쩌다보니 코딩하는 직장인

  • Life Upgrading... (109)
    • 프로필 (0)
    • 논문 (36)
    • 프로그래밍 (46)
      • 머신러닝 AI (9)
      • 프로젝트 (6)
      • 파이썬 Python (22)
      • 개발 Issue (2)
      • 참고자료 (7)
    • 연구노트 (21)
      • 개발사항 (9)
      • 관련 자료 정리 (12)
    • 기타 (5)
  • 홈
  • 태그
  • 방명록
네이버 영화 리뷰 키워드분석 (5) 전처리 끝

네이버 영화 리뷰 키워드분석 (5) 전처리 끝

전단계에서 못다한 전처리를 마무리하자. 이전까지는 데이터를 쪼개고, 필요없는 것을 걸러내는 작업을 했다면 지금부터는 그렇게 해서 남은 단어들을 벡터화하는 단계이다. 생각보다 전처리가 오래걸리고 힘들었다. 그냥 긍정/부정을 나누는 것만 했다면, 어느정도 정제만 하고 성능에 영향을 주지 않을 정도만 하면 되는데, 우리는 키워드 추출까지 해야한다. 추출한 키워드가 최대한 불용어가 되지 않도록 데이터를 많이 살펴보아야한다. 아무튼 시작한다. CountVectorizer from sklearn.feature_extraction.text import CountVectorizer CountVectorizer에 대해서는 강의 03 단어 카운트 (CountVectorizer) - 토닥토닥 파이썬 - 텍스트를 위한 머신러..

  • format_list_bulleted 프로그래밍/프로젝트
  • · 2021. 7. 17.
  • textsms
  • navigate_before
  • 1
  • navigate_next
공지사항
  • 개발공부
전체 카테고리
  • Life Upgrading... (109)
    • 프로필 (0)
    • 논문 (36)
    • 프로그래밍 (46)
      • 머신러닝 AI (9)
      • 프로젝트 (6)
      • 파이썬 Python (22)
      • 개발 Issue (2)
      • 참고자료 (7)
    • 연구노트 (21)
      • 개발사항 (9)
      • 관련 자료 정리 (12)
    • 기타 (5)
최근 글
인기 글
최근 댓글
태그
  • #영화리뷰
  • #countvectorizer
  • #리뷰
  • #데이터
  • #회귀모델
  • #파이썬
  • #크롤링
  • #tf-idf
  • #웹크롤링
  • #머신러닝
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바