본문 바로가기

반응형

전체 글

(10)
[Metric] BLEU(Bilingual Evaluation Understudy) 1. BLEU - Bilingual Evaluation Understudy - n-gram precision의 조화평균(작은 값에 가중치) 2. BLEU를 왜 사용할까? 1. 자연어 생성 평가에서 중요한 것은 생성된 문장이 목적에 얼마나 잘 부합하는지 ( 의미있는지) 이기 때문에, 단어 한 두개의 차이는 중요하지 않음 2. 문장의 길이와 단어의 중복을 고려해 평가할 수 있음 3. Brevity Penalty 을 사용해 짧은 문장의 점수가 높아지는 문제 해결 3. BLEU score 계산 Reference text : "Where is the cat sleeping?" Generated text : "Why is the cat sleeping on the mat?" 1-gram precision (=4/8..
Prompt based learning 이란? 1. Prompt based learning란? input을 변형해 fine-tuning없이 pre-trained 모델을 down stream task에 적용하는 기술 Pre-trained LM을 재학습없이 활용하는 방법으로, 2019년도부터 활발히 연구되고 있음 핵심은 Input과 Output을 재구성하는 것 2. prompt learning 과정 step1. 하늘색으로 표시된, Template이라고 불리는 문장을 input에 추가해 input 형식 변경 - mask에 어떤 단어가 들어오는지에 따라, I like this movie가 긍정인지, 부정인지 판단할 수 있게됨 step2. 변경된 input을 PLM(예시에서는 GPT)에 넣으면, GPT는 mask 토큰에 들어갈 수 있는 단어들의 확률분포를 출..
GRAFENA Data Link 설정하기 - 링크를 거는 공식적인 방법이 없기 때문에, 페이지 전환으로 버튼처럼 동착하도록 함 - value를 클릭했을 때, URL을 변경해서 그래프가 변경된 것처럼 보이게 함. (GET 방식) 1. 실습 전 알아야 할 것 1-1. Grafana URL 살펴보기 1. 모든 Global Variables을 all로 선택하기 2. URL 살펴 보기 URL&var-global_variable_1=XX1&var-global_variable_2=XX2&var-global_variable_3=XX3 주소 뒤에 Global Variables 가 붙어 있는 형식 각 variable은 &로 이어져 있음 1-2. URL 생성하기 $을 입력하면 아래 옵션이 표시됨 모든 옵션을 유지하고 싶은 경우 : template에서 All var..
정규표현식 python 정규 표현식 정리 1) 기호표패턴 문자 의미^1. 문자열 시작 2. not.줄바꿈 문자를 제외한 1글자$문자열 끝[]문자열 집합e.g. [xyz] == [x-z] e.g. [^a] : a를 제외한 모든 문자|or\d== [0-9] 2) re.sub( reg, 바뀔 문자열, 바꿀 문자열)[1] 단순 치환 특정 단어 치환import retext = 'I like red hair and grey eyes're_text = re.sub('red|grey', 'brown', text)print(re_text) -----------------------------------------------------------------------------------I like brown hair and bro..
[QG]A Feasibility Study of Answer-Agnostic Question Generation forEducation / 2022 ACL 논문 보러가기 github 2022 ACL Abstract Textbook 내용에 대한 Question Generation Model의 적용 가능성에 대한 타당성 연구 Question Generation 에서 생성된 Question의 오류를 분석했을 때 상당 부분이 해석할 수 없거나 (uninterpretable) 관련이 없는 question이 생성되는 것이었음 본 논문에서는 요약된 input을 제공해 위 오류를 완화할 수 있음을 주장 원본 text 대신 인간이 작성한 summarized input을 제공하면 생성된 질문의 수용 가능성(acceptability)가 33%에서 83%로 증가함은 전문가들의 평가를 토대로 확인함 또한 사람이 작성한 요약이 없는 경우 자동 요약이 대안이 될 수 있음을 확인함 I..
Maximum Likelihood Estimation (MLE, 최대 가능도 추정 ) Likelihood (가능도) Probability(확률) 어떤 사건이 일어날 가능성 특정 확률분포가 주어졌을 때, X가 관측될 확률 Likelihood (가능도) 특정 X가 주어졌을 때, 어떤 확률 분포에서 나왔는가에 대한 확률 이미 일어난 사건에 대한 정보를 활용해 어떤 모수(parameter)값이 가장 적합한지 나타내는 척도 정규분포라면 모수는 평균과 표준편차 가능도가 높다 = 해당 모수를 가진 분포가 관측치에 적합함 = 모델을 잘 설명함 MLE로 가능도를 최대화 하는 모델 파라미터(평균, 표준편차)를 찾음 Likelihood function - likelihood function은 데이터가 주어졌을 때 모수가 얼마나 적합한지를 나타내는 함수 - "주어진 모수 $\theta$에서 데이터 $x$가 발..
[Transformer] Attention Is All You Need (3) : Attention Transformer 논문을 아래 목차로 나눠 자세히 리뷰합니다. 더보기 닫기 1. Abstract ~ Background 2. Model Architecture(Encoder, Decoder) 3. Attention 4. FFN, Positional Encoding 5. Training 6. Result, Conclution 0. Self-Attention N개의 Token으로 구성된 문장이 있을 때, Self-Attention은 N x N 번 연산을 수행해 모든 token들 사이의 관계를 직접 구함 (Query와 Attention이 가장 높은 token을 찾기 위해서 Key, Value를 문장의 처음부터 끝까지 탐색) Query : 현재 시점의 token에 대한 정보를 담고 있는 vector (ex...
[Transformer] Attention Is All You Need (2) : Model Architecture(Encoder, Decoder) Transformer 논문을 아래 목차로 나눠 자세히 리뷰합니다. 더보기 1. Abstract ~ Background 2. Model Architecture(Encoder, Decoder) 3. Attention 4. FFN, Positional Encoding 5. Training 6. Result, Conclution Model Architecture - Transformer는 self-attention과 fully connected layers를 사용해 encode와 decoder를 구성함 - encoder와 decoder를 여러개 쌓아 모델은 입력과 출력 시퀀스간의 복잡한 관계를 학습할 수 있음 Point-wise (element-wise) - 각 요소별 연산(같은 위치끼리) - 행렬곱보다 연산량..

반응형