When does a Compliment become Sexist? Analysis and Classification of Ambivalent Sexism using Twitter Data( Akshita Jha, Radhika Mamidi, 2017)
When does a Compliment become Sexist? Analysis and Classification of Ambivalent Sexism using Twitter Data( Akshita Jha, Radhika Mamidi, 2017)
● 노골적인 성차별 댓글(hostile)과
겉으로는 성차별적이지 않으나 성차별적 내용을 담은 댓글(benevolent) 분류
● 실험 전 연구 대상 데이터셋에 대한 사전 고찰
-내용어 단어 빈도 순 고찰, tri-gram 빈도, 형용사 빈도
● ML 기법(SVM)과 DL 기법(Seq2Seq, fastText 자체 classifier) 간 비교
● 데이터셋 및 태스크
Twitter 데이터, Multi task 분류: 라벨 3개(hostile, benevolent, others)
이와 더불어 polarity 분석: 가정) hostile은 negative, benevolent는 positive가 많을 것
● 사용 architecture
SVM(+tf-idf 가중치), Seq2Seq, fastText classifier
● 데이터셋 사전 분석
가장 많이 등장하는 내용어 ,가장 많이 등장하는 tri-gram 쌍, 가장 많이 등장하는 adjectives
● 결론 및 적용점
분류 성능 지표: Pre, Rec, F1 → fastText가 가장 성능이 좋음
SVM: benevolent, other class에 대한 더 나은 f1-score
Seq2seq: hostile class에 더 나은 f1-scure
fastText: bag of n-gram으로 인해 트윗의 word order가 잘 임베딩 됨,
또한 seq2seq보다 조정하는 파라미터가 적어 더 높은 성능을 보임
★ 실험 전 연구 대상 말뭉치에 대한 분석 필요
-자주 등장하는 단어, -n gram 탐색
★ 결과 분석 시 architecture와 분류 지표 성능 간 관계 및 분류 지표 성능 자체 분석 필요