논문정보
한승현, 정태선. (2018). 문장 중심 재조합 방식의 소설 생성 알고리즘.
한국정보기술학회 종합학술발표논문집, (), 173-175.
논문요약
연구배경
서사학적 관점에서 표현 형식의 일관성을 표현하기 위해서는 강한 지도 학습이 필요함.
▷ 문장중심 재조합 방식의 소설 생성 알고리즘 제시
시계열 데이터의 대표적인 예는 RNN과 그 파생 알고리즘 but 장기 의존성 문제가 있다.
▷ 단어 차원으로 통사적으로 말이 되는 문장이 나올지라도 의미상 어색한 문장이 생성됨
일반적으로 문장 생성 학습에서의 initialization은 단어로 보통 이뤄져 있고, 이를 문장이나 구문 단위로 늘리게 될 경우 가중치 배열이 매우 커져, 약간의 노이즈만으로도 일관성 문제가 발생한다. 또한 메모리 문제도 심함.
정리하면 Word Embedding을 활용한 방법론은 의미 있는 문단을 생성하지 못하므로 Satosi,S는 세 단계로 이뤄지는 소설 생성 알고리즘을 제시한다.
1. 기존 작품에서 문장 추출
2. 일부를 다른 작품의 일부로 대체 (모방, 치환)
3. 대화를 중심으로 하는 재조합 과정
4. 사람이 수정을 가하는 과정
이를 한국어 사정에 맞게 adaptation 수행
연구내용
Satosi의 3단계 구성 모델을 다음과 같이 응용
1. 학습 데이터를 문단 단위로 파싱하고 요약 문장 생성
2. sseed문장 간의 상관도를 측정해 유사도 높은 문장 추출
3. 위 과정을 반복하여 생성한 문장들에 대한 후처리
하나하나씩 살펴보자
<모방을 통한 새로운 문장 작성>
훈련데이터셋은 한국의 웹소설 커뮤니티에서 크롤링 후 전처리
요약문은 TextRank를 사용하여 생성 (문단을 가장 잘 표현하는 문장)
TextRank cost 문장 또는 단어 V에 대한 TextRank 값
<문장 중십 재조합>
기존 text (원본)와, TextRank로 정렬된 텍스트를 바탕으로 발단, 전개, 위기, 절정, 결말 구성
코사인유사도로 유사성을 지닌 문장을 추출해 정렬한다.
Cosine similarity
<플롯을 중심으로 하는 생성>
사용자가 필요에 따라 문단을 추가할 수 있고 문장의 길이 추가 가능.
본 연구에서는 무료 웹소설 사이트를 위주로 문단을 학습
기대효과
결과물은 해체주의에 가깝다. but 전/후처리를 충실하게 수행하면 플롯 방식의 input유사성을 향상시킬 수 있음
전통적인 소설보다는 짧은 이야기를 만드는데 적합하다.
결론
RNN은 장기 의존성 문제를 효과적으로 해소하기 힘들었음.
본 연구에서의 순수 창작을 위한 인공지능 소설 생성 알고리즘은 플롯 기반의 seed문장을 바탕으로 문장 중심 재조합 알고리즘을 사용하는 모델을 채택
but 전면 표절을 면하는 수준!
seed문장의 integrity를 높이기 위한 라벨링 작업 같이 다양한 전처리 과정이 선행되어야 할 것 같다.