Distant Reading on ‘Uri’― Word2Vec and N-gram Analysis on Modern Korean Novels
(멀리서 읽는 “우리”― Word2Vec, N-gram을 이용한 근대 소설 텍스트 분석)

Published in DAEDONG MUNHWA YEON'GU, 2021

Recommended citation: Jaehyun Seo, Byungjun Kim, Minwoo Kim, and Sejeong Park. (2021). "Distant Reading on ‘Uri’― Word2Vec and N-gram Analysis on Modern Korean Novels." DAEDONG MUNHWA YEON'GU. 115.

Online link
Github
Download paper here

Abstract

Although it has taken quite a long time to discuss the Korean term ‘Uri’ until recent days, it is still in a stalemate without a clear explanation. Through applying quantitative research methodology so-called ‘Distant Reading’, this paper explores the new way to solve the problem. While covering the preceding researches, the research targets to improve the quality and amount of the data, and to apply data analysis using machine learning methodology(Word2Vec and N-gram) to overcome the bias and highlight the unexcavated usages of ‘Uri’) It can be said that the corpus of modern Korean novels is an accumulated intellectual source that is recorded by the literate stratum (of Korean society) since they had struggled to devise the proper term over time. Through the series of each process(collecting and parsing the data, analyzing the corpus with machine learning methodology) the researcher would capture the unseen insights. In the end, it is expected that ‘Close reading’ would use jointly as a cooperative methodology with ‘Distant reading’ collinearly.

초록

우리말 표현 ‘우리’를 설명하고자 하는 논의는 최근까지 이어져 왔지만 각각의 결론에 도달했을 뿐, 포괄적인 설명을 내놓지 못한 채 고착에 빠져있다. 본 논문에서는 멀리서 읽기(distant reading)로 통칭되는 정량적 연구방법론을 적용함으로써 이 상황을 벗어날 새로운 방향을 모색하고자 한다. 본 연구에서 분석 대상으로 삼는 1900년대 초반부터 한국전쟁 이전까지의 신소설로부터 해방기에 이르는 소설 텍스트 자료들은 통시적 관찰을 가능하게 할 뿐 아니라 한문과 한글, 문어와 구어의 경계에 서서 우리다운 표현에 대한 고민이 축적된 지적 산물이라는 점에서 의의를 가진다. 이 텍스트를 수집하고 정제한 말뭉치를 대상으로 기계학습을 활용한 디지털 방법론(Word2Vec분석 및 N-gram분석)을 적용해나가는 과정을 통해 인간의 눈에 의해 포착되지 못한 새로운 통찰에 대한 가능성을 확인하고자 한다. 이를 통해 얻은 문제의식을 바탕으로 가까이 읽기와 멀리서 읽기를 상호보완적으로 병행함으로써 얻은 풍부한 사례들을 토대로 ‘우리’연구에 새로운 방향을 제시하려고 한다.

N-grams and frequency of 'Uri'

Neighbors of 'Uri' by window size in word2vec model