Skip to the content.

Doctoral Dissertations on Modern Korean Literature (DDMKL)

소개

2000년에서 2019년까지 출간된 국어국문학과 박사 학위논문(현대문학) 1,528편의 서지정보를 수집하고 분석해
한국 현대문학 연구 변화와 앞으로의 동향을 전망하는 연구의 파이썬 코드입니다.
데이터 수집 및 분석의 자세한 과정은 아래 논문을 참고하십시오.
논문이나 코드관련 문의는 아래 저자 소개에 있는 이메일로 연락주시거나 깃허브 issue 페이지를 통해 받겠습니다.

박사학위 논문(2000~2019) 데이터 분석을 통해 본 한국 현대문학 연구의 변화와 전망 (상허학보 60, 2020)

논문 Wiki 페이지

저자

코드 활용

Jupyter 코드(ipynb)를 다운받아 로컬에서 활용하거나,

핵심 코드 3개(전처리, 키워드, 모델링)는 Google Colab으로 바로 코드 확인 및 개발 가능.

폴더 설명


0. 서지정보 데이터 다운로드

데이터 안내(필독)

data 폴더

1. 데이터 수집 및 개괄

Selenium 을 활용한 RISS 서지정보 자동 내려받기 (2024년 현재 작동 불가)
00RissCrawling.ipynb (RISS 서지정보 자동수집, 코드 활용안내 튜토리얼)
01RissParsing.ipynb (RISS에서 다운로드 받은 서지정보 엑셀파일 합치기)
크롬 드라이버 다운로드

Riss 사이트에서 서지정보 스크래핑 (2024년 4월 업데이트 완료)

01RissScraping.ipynb

2. 데이터 전처리 & 형태소 분석

02Preprocess.ipynb (구글 Colab 링크)

3. 기술 통계량 & 키워드 추출

03Keywords.ipynb (구글 Colab 링크)

4. 시계열 토픽 모델링

04Model.ipynb (구글 Colab 링크)

Dynamic Topic Model 바이너리 Github
Dynamic Topic Model 바이너리 다운로드(윈도우64)
Dynamic Topic Model 바이너리 다운로드(리눅스64)