회색+밑줄은 하이퍼 링크
이므로 클릭이 가능합니다!
MRC(Machine Reading Comprehension) dataset으로 Open-Domain Question Answering을 수행하는 task이다. 질문에 관련된 문서를 찾는 Retriever와 찾아온 문서에서 질문에 대한 정답을 찾는 Reader로 구성된다.
학습용 데이터셋으로는 약 4000개의 데이터가 주어졌으며, public 리더보드에서는 240개, private 리더보드에서는 360개의 데이터로 평가가 이루어진다.
**EM(Exact Match)**와 F1 score 두 개의 평가지표를 사용하지만, EM기준으로 리더보드 등수가 반영되고, F1은 참고용으로만 활용된다.
Exact Match: 모델의 예측과 실제 답이 정확하게 일치할 때만 점수가 주어집니다. 띄어쓰나 문장부호를 제외한 후 정답에 대해서만 일치하는지 확인한다. 또한 답이 하나가 아닐 수 있는데, 이런 경우는 하나라도 일치하면 정답으로 간주한다.
Exact Match
F1 Score: EM과 다르게 부분 점수를 제공한다. 예를 들어, 정답은 "Barack Obama"지만 예측이 "Obama"일 때, EM의 경우 0점을 받겠지만 F1 Score는 겹치는 단어도 있는 것을 고려해 부분 점수를 받을 수 있다.
F1 Score
김태일_T3063 | 실험 세팅, BM25, rerank, DPR 구현 및 실험 |
---|---|
문찬국_T3076 | 협업 툴 관리, 실험 세팅, KorQuAD Fine-tuning, Curriculum Learning, Hyperparameter Tuning |
이재학_T3161 | EDA, Scheduler 실험, 성능 검증 코드 제작, Data Length 관련 실험, Inference 후처리, Ensemble |
하성진_T3230 | Pre-trained 모델 실험, KorQuAD Pre-training |
한나연_T3250 | EDA, Pre-trained 모델 실험, Elasticsearch, NER tagging |
프로젝트 수행 타임라인
리더보드 점수
Public LB: 1st / 11
Private LB: 1st / 11