도메인 정보가 강화된 워드 임베딩을 사용한 한국어 텍스트 생성
논문정보 임미영, 강신재. (2019). 도메인 정보가 강화된 워드 임베딩을 사용한 한국어 텍스트 생성. 한국지능시스템학회 논문지, 29(2), 142-147. 논문요약 최근 RNN이 언어 모델링에서 두각을 나타내고 있다. 정형화된 텍스트 뿐만 아닌 소설,수필과 같은 창의적인 텍스트 생성을 위한 시스템에도 쓰임. 다만 한국어 연구는 부족한데, 영어보다 어휘의 쓰임새나 형변환이 다양하기 때문. 따라서, 도메인 정보가 강화된 워드 임베딩을 이용하여 한국어 텍스트 생성 모델을 구축하였다. 기존연구 언어모델이란 말뭉치에 출현한 단어 열에 대한 확률 분포 n-1개의 단어가 주어졌을때 말뭉치에서 단어 열이 나타날 확률을 할당하여 가장 높은 확률을 가지는 단어를 생성 (데이터에 민감함 => 대화말뭉치, 학술분야 말뭉..