Opening the Blackbox of Computational Social Science Research Process: A Case of Comparative Study of Social Science Academia
(전산사회과학 연구과정의 블랙박스 열기: 아카데믹 데이터베이스를 활용한 비교사회학 연구를 중심으로)

Published in Korean Journal of Sociology, 2023

Recommended citation: June Jeon, Byungjun Kim, Jaehong Kim, and Lanu Kim. (2023). "Opening the Blackbox of Computational Social Science Research Process: A Case of Comparative Study of Social Science Academia." Korean Journal of Sociology. 57(2).

Online link
Github
Download paper here

Abstract

How does the data science-driven sociology of knowledge work? What are the strengths and limitations of the computational approach in the sociology of knowledge, and what kinds of methodological challenges exist? Despite the rapid growth of computational social science and related infrastructure, we need more systematic reports on the practical hurdles of computational social science research. This research note reveals tacit knowledge of computational social science by utilizing the case of our research project on a comparative study of Korean and international social science academia. In doing so, it reveals practical challenges of computational social science that are often untold while underlining the methodological significance of such a tacit process. Our comparative project started by collecting and preprocessing academic archival data via KCI and SSCI. For the macroscopic comparison of the thematic difference between KCI and SSCI, we tried both BERTopic and Structural Topic Model. During this process, we had to make non-trivial decisions on pre-trained model and hyperparameters, and interpret meanings of clustered topics. To enhance the strengths of computational social science for the sociological enterprise, we argue that classic methodological conundrums such as evaluating quality and type of data, choice of analytical toolkits, strategies for operationalization, aligning research question and methodology, and harnessing internal and external validity of the method should be prioritized over the computational technique itself.

초록

데이터과학에 기반한 지식사회학 연구는 어떤 과정으로 수행되는가? 이러한 접근의 강점은 무엇이며, 연구 과정에서 염두에 두어야 할 사안들은 어떤 것이 있는가? 데이터과학과 사회과학을 융합하는 시도가 전 세계적으로 증가하고 있는 가운데, 실제로 연구를 수행하는 과정에서 사회과학 연구자들이 실질적으로 마주하게 될 어려움들을 소개한 연구는 드물다. 본 연구 노트는 저자들이 수행하고 있는 사회과학 지식장에 대한 비교사회학 연구를 사례로 하여 전산사회과학의 데이터 수집 및 분석 과정에서의 암묵지를 드러내고, 이와 관련된 방법론적 시사점을 강조한다. 저자들의 지식사회학 연구는 KCI와 SSCI의 사회과학 논문들을 다양한 데이터베이스를 활용해 수집하고 정제하는 것으로 시작되었다. 한국연구재단 데이터베이스와 OpenAlex 데이터베이스를 동일한 차원으로 분석할 수 있도록 전처리하는 과정 또한 필요했다. 한국과 국제 사회과학 학문장의 거시적, 미시적 관계성을 알아내기 위해 우리는 BERTopic과 STM을 모두 시도하며 더 설득력 있는 결과물을 얻어내기 위한 시행착오를 거쳤다. 이 과정에서 사전 훈련된 말뭉치의 선정, 토픽의 개수 지정, 토픽 뭉치의 의미 해석 등 방법론에 대한 연구자들의 선택과 반복이 필수적이었다. 즉, 전산사회과학의 사회학적인 응용 가능성을 높이기 위해서는 코딩 테크닉 자체에 대한 고민뿐 아니라, 데이터, 분석 도구, 조작화 전략, 연구질문, 주장의 신뢰성과 한계에 대한 고찰 등 사회학자들이 오랫동안 천착해 온 방법론적인 질문들이 여전히 가장 중요한 것이다.

The Comparison of BERTopic Results Using SCI-SSCI Pre=Trained Model and SSCI Pre-Trained Model

Example of BERTopic Model Results