본문 바로가기

NLP/NLP Paper

[QG]A Feasibility Study of Answer-Agnostic Question Generation forEducation / 2022 ACL

반응형
반응형

논문 보러가기 

github

2022 ACL 

 

 

 

Abstract

  • Textbook 내용에 대한 Question Generation Model의 적용 가능성에 대한 타당성 연구
  • Question Generation 에서 생성된 Question의 오류를 분석했을 때 상당 부분이 해석할 수 없거나 (uninterpretable) 관련이 없는 question이 생성되는 것이었음
  • 본 논문에서는 요약된 input을 제공해 위 오류를 완화할 수 있음을 주장
    • 원본 text 대신 인간이 작성한 summarized input을 제공하면 생성된 질문의 수용 가능성(acceptability)가 33%에서 83%로 증가함은 전문가들의 평가를 토대로 확인함
  • 또한 사람이 작성한 요약이 없는 경우 자동 요약이 대안이 될 수 있음을 확인함

Introduction

  • 중요한 개념에 대해 좋은 질문을 만드는 것은 어려운 일이지만, QG를 통해 도움을 받을 수 있음
  • 이전 QG는 "Answer-aware" 에 초점을 맞추어 연구되었음
    • 일반적으로 highlight token을 사용해 input context에서 answer span을 선택함
  • 반면 "Answer-agnostic QG"는 answer span을 수동으로 선택하지 않아도 됨
  • 입력 문맥에서 중요한 키워드를 추출해 이를 활용하여 질문을 생성한다.
  • 본 논문에서는 "Answer-agnostic QG"를 교육 분야에 적용 가능한지에 대한 타당성을 조사함

Contribution

1. Answer-agnostic QG 모델이 실패하는 이유가 관련이 없거나 해석할 수 없는 질문을 만들기 때문이라는 것을 보임

2. Answer-agnostic QG 모델에 원본 text 대신 Summarization을 제공하면 질문 수용 가능성, 관련성, 해석 가능성이 증가하는 것을 보임

3. 자동 생성된 요약의 효과를 보임


Related Work & Background

  • 빈칸 채우기 문제는 너무 명확하게 중요한 핵심 용어에 대해서만 질문할 수 있어 효과적이지 않음
  • neural QG에 대한 일반적인 formula

  • 일반적으로 BLEU, ROUGE, METEOR와 같은 n-gram 중첩 metric을 사용해 평가
  • 교육 환경에서 answer-aware QG의 가능성은 2018년도에 조사됨
  • "answer-aware" 모델의 도전 과제
    • 중요한 것과 중요하지 않은 것을 결정하는 것
      • input context에서 질문에 대한 답변이 될 가능성이 가장 높은 answer span target을 모델링하기 위해 P(C|A)를 별도로 모델링함
      • 추출된 answer-span은 answer-aware QG 모델의 P(Q|A,C)에 제공됨
      • 이러한 모델링 선택은 보다 Control 할 수 있는 QG와 용어 중요도를 직접적으로 모델링할 수 있도록 함
  • 인간은 Answer 가 얼마나 관련있는 내용으로 선택되었는가 보다 질문의 정확성과 유창성을 더 중요하게 생각하는 것으로 조사됨
  • 이 연구에서는 생성된 질문이 생성된 textbook 챕터의 주제와 관련이 있는지 여부를 annotator에게 확인하도록 함
  • SQuAD에서 answer extraction을 위한 훈련 모델이 textbook 자료에 적용되면 관련이 없거나 모호한 답변을 선택한다는 것을 알 수 있음

Methodology

  • answer-extraction이 QA와 QG에 모두에 도움이 될 것으로 가정하고 3개 모델 모두에 대해 fine-tuning된 모델 사용
  • SQuAD로 fine-tuning된 T5 사용
    • UniLM이나 ProphetNet도 후보에 있었지만, T5의 경우 질문 생성(generate question)과 답변 추출(extraction answer)과 같은 task별 접두사로 작업간 분리가 가능해 채택되었음

모델에 학습에 사용된 3가지 fine-tuning task

  • P(Q|A, C)를 최대화 하는 방향으로 학습
context passage C = {c0, ..., cn}
answer span within this context A = {ck, ..., ck+l}
tokens in the question Q = {q0, ..., qm}

1. Question Generation 

P(Q|A,C)를 모델링해 answer-aware QG를 수행하도록 학습

2. Question Answering

P(Q|C,Q)를 모델링해 answer extraction QA 를 수행하도록 학습

3. Answer extraction

P(A|C)를 모델링하는 대신 P(A|C')를 모델링해 학습
  • C0 = {c0, ..., cs, ..., ce, ..., cn+2}
  • cs, ce는 answer span의 start와 end를 나타내는 highlight tokens

질문 생성 과정

1. 주어진 구절(Passage)에서 각 문장의 start와 end를 반복적으로 highlight 처리

2. 각 문장(sentence)에서 최대 하나의 answer를 추출

3. 문장별로 추출된 answer에 대해 "동일한 모델"을 사용해 하나의 질문을 answer-aware한 방식으로 생성

4. Passage를 구성하는 tokens의 수가 512개가 넘어가면 문장이sub-passage로 나눠지지 않도록 분할됨

5. 모든 sub-passage는 가능한 비슷한 수의 문장을 갖도록 함


Experiments

First experiment

  • "Speech and Language Processing 3rd Edition 5"에서 추출한 원본 text로 모델 성능 평가
  • Chapter 2,3,4에서 수동으로 텍스트를 추출함
  • 그림, 표, 방정식 생력
  • 참조는 적절한 괄호 인용으로 변경되거나 가능한 경우 생략됨
  •  total 1208개의 question-answer pair를 생성함

Second experiment

  • 사람이 작성한 요약에서 모델의 성능을 평가함
  • 3명의 RA를 모집( 공동 저자에 포함 )
  • 기계의 입장보다 사람의 입장(사람이 쉽게 읽을 수 있는)으로 요약을 작성하라고 권고 
  • total 667개의 question-answer pair 생성

Final experimant

  • 자동으로 생성된 요약에서 모델 성능 평가
  • BART 모델을 CNN/DailyMail Dataset으로 fine-tuning
  • 요약된 sub-passage output은 QG를 실행하기 전에 concat됨
  • total 318개의 question-answer pair 생성

Evaluation 

  • 3가지 실험에서 각각 무작위로 100개의 question-answer pair  샘플링
  • 총 300개의 질문으로 평가 세트 구성
  • 3명의 annotator가 똑같은 질문 평가
  • 5가지 유형의 yes/no 질문
    1. 허용성(Acceptable) :  Would you directly use this question as a flashcard?
    2. 문법성(Grammatical) : Is this question grammatical?
    3. 해석 가능성(Interpretable) : Does the question make sense out of context?
    4. 관련성(Relevant) : Is this question relevant?
    5. 정확성 (Correct) : Is the answer correct?

Human evaluation

  • 생성된 질문이 같는 대부분의 오류가 문맥과 무관하거나 해석이 불가능한 질문이 나온다는 것을 고려했을 때 summarization을 제공하면 해당 문제가 완화되는 것을 확인할 수 있었음
  • 인간이 작성한 요약에서 직접 질문을 생성하면 관련성과 해석 가능성이 크게 향상됨
  • 자동 요약의 경우 관련성과 해석 가능성은 개선되지만 문법성이 저하되는 것을 향상을 보임

Coverage evaluation

 

  • Question과 Answer에서 bold로 표시된 핵심 용어의 백분율 비교
  • 백분율이 높을 수록 핵심 용어를 잘 포함했음을 알 수 있음

Prescision & Recall

  • figure3을 Prescision으로, Table2를 recall로 생각하면
    • 인간 요약은 Precision, Recall 이 높고
    • 원본 text는 Precision, Recall이 낮음
    • 자동 요약은 그 중간

Comparision Annotators

  • A1, A2, A3은 yes 답변의 비율
  • Pairwise Inter-Annotator Agreement는 Fleiss k 대신 Pairwise Cohen k를 사용
  • 문법성과 정확성에 대한 일치도가 낮은 것 처럼 보이지만, test data가 불균형하게 샘플링된 영향으로 보임
  • (relevance, interpretability, acceptability) 이 3가지에서 약 0.4의 pairwise 일치도를 보임 
    • 모호한 범주에 대해서도 어느정도 일치가 있는 것으로 판단됨
    • 모호한 범주란?
      • 주관적인 판단이 개입되어 정확한 판단이 어려운 범주

Conclusion and Future Work

1. Summarization과 QG 사이 상관관계에 대해 연구해야 함

2. Metric 개선이 필요함

  • n-gram 중첩 매트릭은 context내 해석 가능성과 상관관계가 낮고
  • downstram QA에 대한 평가는 "관련성"을 평가하지 못 함

 

반응형