논문정보
김다해, 이지형. (2016). 문서 주제에 따른 문장 생성을 위한 LSTM 기반 언어 학습 모델. 한국컴퓨터정보학회 학술발표논문집 , 24(2), 17-20.
논문요약
대부분의 언어 모델들은 텍스트에 나타나는 단어들의 일반적인 패턴을 학습하는 것을 기반으로 하기 때문에, 고도화된 자연어의 이해를 필요로 하는 연구들의 경우 주어진 텍스트의 주제 및 의미를 고려하기에 한계점이 있다.
따라서 LSTM 모델을 변형하여 문서 주제와 해당 주제에서 단어가 가지는 문맥적인 의미를 단어 벡터 표현에 반영할 수 있는 새로운 언어 학습모델을 제안하고 본 제안 모델이 문서의 주제를 고려하여 문장을 자동으로 생성할 수 있음을 보이고자 한다.
개요
단어들의 일반적인 패턴을 학습하는 대부분의 언어 학습 모델은, 문서 요약이나 스토리텔링 등 고도화된 자연어의 이해를 필요하는 연구에는 한계점이 있다.
why? 문서요약의 경우, 주제와 문맥을 고려하는 것이 중요하기 때문에, 주제 및 단어의 문맥이나 문장 간의 연결성과 같은 요소들을 고려할 수 있어야 함.
기존의 LSTM모델을 변형하여 문서의 주제와 특정 주제에서 단어가 가지는 문맥적 의미를
단어 벡터에 효과적으로 표현할 수 있는 새로운 언어 학습 모델을 제안하고,
모델을 통해 주어진 문서의 주제와 연관된 문장들을 자동적으로 생성함으로써,
보다 심층적인 자연어의 이해를 필요로 하는 분야에 응용될 수 있음을 보임.
LSTM
LSTM을 이용하여 단어를 표현하는 여러 모델에 대해 알아보자.
<One - to - one 모델>
문서 내에 존재하는 임의의 단어는 이전 단어를 통하여 예측하는 과정의 반복을 통해 문서 내 모든 단어에 대해 모델링.
각 단어의 확률은 다음과 같다.
<Many - to - one 모델>
일련의 순서를 가진 context로부터 다음 단어 예측.
context의 크기가 c, 다음단어는 이전에 등장한 단어들을 통해 예측된다.
따라서 확률은 다음과 같다.
프로세스 과정
단어의 문맥 정보를 반영하기 위해 Many-to-one 모델을 사용.
문서의 주제를 반영시키기 위해 추가적으로 문서 벡터를 학습하여 단어와 함께 사용.
<LSTM 기반 언어 학습 모델 생성>
각 단어는 고유의 식별자를 가지고 있는 EM을 통하여 임의의 벡터 공간에 사상.
문서에 대한 EM은 행렬 D, 단어에 대한 EM은 행렬 W로 표현
같은 주제를 가진 문서들은 동일한 문서 식별자를, 모든 단어는 개별 식별자를 가진다.
한 단어를 표현하기 위한 확률은 다음과 같다.
각 문서 벡터는 주제의 의미가 반영된 벡터. 각 단어 벡터는 문서 벡터의 영향을 받기 때문에 주제에 따른 단어 표현이 가능해진다.
<오차 함수 설계>
예측된 단어와 실제 정답간의 오차가 최소화되도록 수행하며 크로스엔트로피를 사용하여 계산
실험
<실험 데이터 구성>
데이터는 Document Understanding Conference에서 제공하는 DUC 2002, DUC 2004 사용
특정 주제에 대한 여러 다중 문서의 집합으로 구성.
<실험 방법 및 결과>
baseline으로는 앞선 두 모델을 사용하고, Many-to-one모델에 문서를 결합한 제안 모델을 비교실험하였음.
아래는 학습 결과이다.
1. One to one 모델과 비교하여 Many to one 모델이 예측에 있어서 뛰어남
2. 주제를 나타내는 문서 벡터를 함께 입력으로 주면 정확도가 더 높아짐
두번째 실험에서는 DUC가 제공하는 정답요약문과 제안 기법이 생성한 문장의 유사도를 비교.
1. baseline에 비해서 문장의 표현력, 주제와의 관련성 측면에서 뛰어남.
2. One to one모델의 경우 단어의 문맥을 학습하지 못해 특정 단어를 반복함
3. 제안 모델의 경우 IMF라는 토픽이 없어도 관련된 문장을 생성함.
결론
단어가 가지는 문맥적 의미를 가지를 단어 벡터 표현에 반영할 수 있는 학습 모델 제안.
문서의 주제를 고려하여 문장을 자동으로 생성할 수 있음을 보였다.
따라서 보다 심층적인 자연어의 이해를 필요로 하는 여러 분야에 응용될 수 있는 가능성을 확인함.