논문 리뷰/Error Analysis

When does a Compliment become Sexist? Analysis and Classification of Ambivalent Sexism using Twitter Data( Akshita Jha, Radhika Mamidi, 2017)

김아다만티움 2021. 8. 25. 20:13

When does a Compliment become Sexist? Analysis and Classification of Ambivalent Sexism using Twitter Data( Akshita Jha, Radhika Mamidi, 2017)

 

● 노골적인 성차별 댓글(hostile)

   겉으로는 성차별적이지 않으나 성차별적 내용을 담은 댓글(benevolent) 분류

 실험 전 연구 대상 데이터셋에 대한 사전 고찰

    -내용어 단어 빈도 순 고찰,  tri-gram 빈도,  형용사 빈도

●  ML 기법(SVM)DL 기법(Seq2Seq, fastText 자체 classifier) 간 비교

 

● 데이터셋 및 태스크

    Twitter 데이터,  Multi task 분류: 라벨 3(hostile, benevolent, others)

    이와 더불어 polarity 분석: 가정) hostilenegative, benevolent positive가 많을 것

● 사용 architecture

    SVM(+tf-idf 가중치), Seq2Seq, fastText classifier

 

● 데이터셋 사전 분석

가장 많이 등장하는 내용어 ,가장 많이 등장하는 tri-gram , 가장 많이 등장하는 adjectives

  

●  결론 및 적용점

   분류 성능 지표: Pre, Rec, F1 fastText가 가장 성능이 좋음

    SVM: benevolent, other class에 대한 더 나은 f1-score

    Seq2seq: hostile class에 더 나은 f1-scure

    fastText: bag of n-gram으로 인해 트윗의 word order가 잘 임베딩 됨,

    또한 seq2seq보다 조정하는 파라미터가 적어 더 높은 성능을 보임

 

 ★ 실험 전 연구 대상 말뭉치에 대한 분석 필요

 -자주 등장하는 단어, -n gram 탐색

★ 결과 분석 시 architecture와 분류 지표 성능 간 관계 및 분류 지표 성능 자체 분석 필요