SoongsilBERT:BEEP!은 양기창(카카오) 연구원, 장원준(카카오) 연구원, 조원익(서울대학교) 연구원으로 구성된 연구팀이 한국어 혐오 발화 데이터셋인 BEEP![1]
으로 SoongsilBERT를 학습시킨 혐오 발언 분류 모델입니다.
아래에는 모델의 분류 성능을 실제로 확인해볼 수 있는 데모가 준비돼 있습니다.
입력창에 문장을 입력하면 일반글/공격발언/차별발언 셋 중 하나로 분류한 결과를 받아볼 수 있습니다.
참고로, SoongsilBERT(KcBERTv2)는 KcBERT[2] 학습에 활용된 뉴스 댓글 데이터와 대학교 커뮤니티 및 공지사항 등 웹에서 작성된
각종 텍스트[3] 를 사전학습한
RoBERTa[4] 기반의 언어 모델입니다.
웹에서 빠르게 양산되는 각종 신조어와 구어체 문장 분석에 큰 어려움을 겪는 기존 자연어 처리 기술의 한계를 극복하고자 숭실대학교 동아리인 YourSSU와 SSUML에서 개발했습니다.
'예측하기' 버튼을 누르면 입력 텍스트에 대한 결과가 출력됩니다.