Minjok, Gungmin, Gukga - Tracking Changes in the Meaning of National Discourse in Chosun Ilbo Articles Using Dynamic Word Embedding (1920-40)
(민족, 국민, 국가-시계열 워드 임베딩을 활용한 조선일보 기사의 민족 담론 의미 변동 추적 (1920~40))

Published in The Journal of Korean Fiction Research, 2023

Recommended citation: Byungjun Kim and Bong Gwan Jun. (2023). "Minjok, Gungmin, Gukga - Tracking Changes in the Meaning of National Discourse in Chosun Ilbo Articles Using Dynamic Word Embedding (1920-40)." The Journal of Korean Fiction Research. 90.

Online link
Github
Download paper here

Abstract

This paper selects 844,251 regular articles from the Chosun Ilbo data, published from the first issue in 1920 to the last issue in 1940, and uses dynamic word embedding and trend tests to illustrate the changes in the meaning of national discourse-related vocabulary (‘minjok’, ‘gungmin’, and ‘gukga’) over time. Prior research on national discourse in Korea has focused primarily on texts written prior to 1910 and relied on qualitative readings of a limited number of texts. Using digital humanities methodology, this paper attempts to interpret the national discourse embedded in the texts of the Chosun Ilbo during the two decades of Japanese colonization. We determined four factors in relation to our research hypothesis: 1) “Minjok,” “gungmin,” and “gukga” are the most frequently occurring words with significant contextual differences among the words analyzed. 2) The contextual shift in ethnicity is a result of both internal and external factors, such as the consolidation of socialism and Japanese fascism. 3) The similarity between ‘minjok-gukga’ and ‘gungmin-gukga’ over time reveals distinct tendencies, with the turning point being the reinforcement of the “Japan and Korea are One Entity” ideology. 4) The increasing contextual distinction between “minjok” and “gungmin” can be attributed to socialism and Japanese nationalization policies.

초록

이 논문은 1920년부터 창간호부터 1940년 폐간호까지 발간된 조선일보 데이터에서 정규 기사 844,251건을 추려낸 후 시계열 워드 임베딩(dynamic word embedding)과 추세 검정(trend test)을 활용해 민족 담론 관련 어휘(‘민족’, ‘국민’, ‘국가’)의 의미 변화를 통시적으로 그려내는 연구다. 그간 한국의 민족(주의) 담론 관련 연구는 대부분 1910년 이전 텍스트를 대상으로 이뤄져 왔고, 소수의 텍스트를 정성적으로 읽어내는 방식이었다. 이 논문은 디지털인문학 방법론을 기반으로 일제강점기 20여 년간의 조선일보 전수 텍스트에 내재한 민족 담론을 읽어내는 시도이다. 우리는 연구 가설에 관한 네 가지 지점을 확인하였다: 1) ‘민족’, ‘국민’, ‘국가’는 분석 대상 단어 중에서 맥락 변화가 큰 주요 단어이다. 2) 민족의 맥락 변화는 조선일보의 내부 변화와 사회주의 및 일제 파시즘의 강화라는 외부 요인과 연결돼 있다. 3) ‘민족-국가’와 ‘국민-국가’의 시간에 따른 유사도는 서로 다른 추세를 보이며 변곡점은 내선일체 이데올로기의 강화된 시점이다. 4) ‘민족’과 ‘국민’의 맥락 분화는 계속 증가하며 이는 사회주의와 일제의 국민화 정책의 영향으로 볼 수 있다.

Comparing cosine similarity between minjok and gukga and between gungmin and gukga by year

Cosine similarity of minjok and gungmin by year