Search

프로젝트 아이디어 정리

한국어 OCR

해당 주제에서는 다음과 같은 태스크를 수행합니다.

1.
빠르고 정확한 OCR 모델을 만드는 것 (난이도 上)
2.
한국어 OCR 스코어/스피드 리더보드를 만드는 것 (난이도 中)
3.
난해한 문장의 OCR 정확도 높이기 (ex 뛠굼잢쀐) (난이도 中)

문제 상황

현재 한국어 OCR은 자연어처리로 자연스러운 문장을 만들어냅니다.
때문에 난해한 문장, 의미가 없는 문장, 신조어 등에 대한 인식률이 떨어집니다.
정상적인 문장에 대한 성능을 저하하지 않으면서,
위 문장에 대한 성능을 높이는 것이 우리의 목표입니다.

NER 비식별화

아이디어

해당 주제의 목표는 주어진 문장의 문맥을 파악하고,
사용자가 지정한 카테고리에 대해 비식별화(가명화, 익명화)를 수행하는 것입니다.

문제 상황

송유럽은 이번 여름 유럽에 다녀올 생각이다. 이경민은 유럽에게 물었다.
⇒ 송모씨 이번 여름 송모씨에 다녀올 생각이다. 이모씨 송모씨에게 물었다.
단순히 텍스트 대체 시에 발생할 수 있는 문제.
문장 전체의 문맥을 파악할 수 있어야하고, 텍스트 대체 후에도 자연스러운 문장이 출력되어야 함.

해결 방안

가명화의 경우 다음과 같은 작업이 필요합니다.
1.
대체가 필요한 단어 추출 ⇒ 단순히 텍스트 비교가 아닌 모델이 문맥에 따라 대체가 필요한 단어를 판별해야 합니다. ex) 송유럽(이름1) / 유럽(이름2) / 유럽(지명)
2.
적절한 단어 or 지정 단어로 대체합니다.
3.
문장을 더 자연스럽게
이 과정에서 NER, NLU, NLG를 추가로 학습하고 사용할 수 있습니다.

검증 수단

텍스트 분류 측면에서는 기존의 NER,
문장이 자연스러운지 판별하기 위해서는 NLU

데이터셋 확보 방안

기존 NER, NLU 태스크에 사용되는 데이터셋

비속어 분류기

우리나라의 비속어 분류기는 카카오 연구원이 만든 숭실버트가 가장 대표적.
직접적으로 프로덕트에 적용되지는 않음.