[기고]
텍스트 마이닝을 활용한 〈항일음악 330곡집〉 분석
방학진 기획실장
해방 이후 정부가 손놓은 상황에서 2017년 『항일음악330곡집』(민족문제연구소기획, 노동은 책임 집필)이 발간되어 서울, 충남, 제주 등 일부 교육청을 통해 학교 현장에 보급되었다. 2022년에는 『다시 부르는 독립의 함성 : 항일노래 600곡』(반혜성, 김수현, 김명섭, 노복순)도 출간되어 항일음악 연구의 토대가 더욱 확장되었다. 하지만 이렇게 발굴·정리된 항일음악들이 삼일절, 광복절 등 기념일은 물론 역사, 음악 시간에 활용되고 있는 사례는 드물다.
항일음악이 ‘일제침략을 반대하며 국권회복과 독립을 목적으로 만들어진 노래’라고 할 때 그 노래의 가사와 선율 속에는 독립운동의 정신이 깃들어 있음은 불문가지이다. 특히 항일음악에 담긴 가사는 독립운동 관련 선언문, 신문, 잡지, 저서, 연설문, 편지와 마찬가지로 텍스트로 존재하지만 수많은 텍스트는 개념과 연결되고 다시 그 개념은 사상으로 발전한다.
예를 들어 한국광복군 창설 이후인 1942년 만들어진 <광복군가1>(이두산 작사·작곡)의 마지막 가사는 “독립 독립 조국 광복 민주 국가 세워보자”이다. 여기에서 ‘독립’ ‘조국’ ‘광복’ ‘민주’ ‘국가’는 각각 별개의 텍스트지만 ‘독립’ ‘조국광복’ ‘민주국가’ 개념으로 발전하고 다시 ‘독립투쟁을 통한 광복 그리고 광복 후 민주국가 건설’이라는 사상의 일단을 엿볼 수 있는 것이다.
향후 항일음악 연구의 다양한 접근을 바라면서 텍스트 마이닝(text mining) 기법으로 『항일 음악 330곡집』에 수록된 모든 곡의 가사를 분석했다. 분석은 텍스톰(textom.co.kr)을 이용하여 정제 작업(‘때’, ‘너’, ‘일’, ‘날’, ‘피’ 등 한 음절 단어 삭제 등)을 거친 후 텍스트 마이닝 분석, 의미 연결망 분석, 네트워크 분석을 수행하였다. 구체적으로 텍스트 마이닝 분석은 빈도 및 TF-IDF 분석을, 의미 연결망 분석은 N-GRAM을, 네트워크 분석은 CONCOR 분석을 각각 실시하였다.
우선 ????항일음악330곡집????에서가장빈번하게등장하는단어는우리,나라,사랑,자유,동포, 원수, 독립, 소리, 만세, 조선 순이다. 그러나 통계학에서는 단어 빈도가 많다는 것이 중요도가 높음을 의미하지는 않는다. 오히려 모든 문서에서 등장하는 단어는 중요도가 낮으며, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다.
따라서 TF-IDF 값을 통해 전체 문서에서 특정 단어가 언급된 횟수를 계산한다. 그 결과 우리, 나라, 사랑, 자유, 동포, 원수까지는 단어 빈도 순과 같지만 그 이후부터는 조금씩 중요도가 달라짐을 확인할 수 있었다. <표 1>은 상위 50번까지의 단어 빈도와 TF-IDF 값이다.
두번째로 의미 연결망 분석 중 하나인 N-gram은 문장 내에서 연속하여 동시 이어지는 단어와 그 빈도를 계산하는 것으로 예를 들어 『항일음악 330곡집』에서 가장 많이 등장하는 ‘우리’라는 단어는 ‘우리 나라’ 25회, ‘우리 동포’ 17회, ‘우리 우리’ 15회, ‘우리 손’ 13회, ‘우리 원수’ 12회, ‘우리 민족’ 12회, ‘우리 마음’ 11회, ‘우리 피’ 11회, ‘우리 정신’ 10회, ‘우리 소년’ 10회, ‘우리 힘’ 10회, ‘우리 것’ 10회, ‘우리 부모’ 9회, ‘우리 목적’ 8회, ‘우리 자유’ 8회, ‘우리 자손’ 7회, ‘우리 청년’ 7회 등이다.
세번째로 네트워크 분석방법 중 하나인 CONCOR 분석은 동시에 출현하는 단어 사이의 관계를 분석하여 유사한 단어 집단을 묶어 군집화하는 기법이다. 즉 복잡하게 얽혀 있는 단어의 연결망에서 블럭을 찾아주는 것이다. 『항일음악 330곡집』에등장하는단어들은4개의군집을 형성했다. 군집 1은 ‘백두산’ ‘금수강산’ ‘무궁화’ ‘태극기’ ‘하늘’ 등 우리 민족의 상징을, 군집 2는 ‘우리’ ‘나라’ ‘민족’ ‘조국’ ‘천만’ 등 우리 민족 공동체 자체를, 군집 3은 ‘영웅’ ‘무궁’ ‘기쁨’ ‘강토’ ‘문명’ 등 우리 민족의 기상을, 군집 4는 ‘희망’ ‘광명’ ‘건국’ ‘평화’ ‘국가’ 등 우리 민족의 해방을 각각 상징하는 단어들로 각 군집을 이루고 있다.
따라서 각 군집명으로 군집 1은 민족의 상징, 군집 2는 민족 공동체, 군집 3은 민족의 기상, 군집 4는 민족의 해방으로 명명할 수 있다. (지면 관계상 각 군집 그림에서 특정 단어가 보이지 않는다.)
끝으로 『항일음악 330곡집』이 연대별(1860 ∼1900년대, 1910년대, 1920년대, 1930년대, 1940년대)로 노래를 수록한 장점을 살려 향후 시계열 분석, 『항일노래 600곡』의가사까지 포함한 추가 분석, 좀 더 치밀한 단어 정제 과정 그리고 역사적 맥락을 고려한 항일음악 내용 분석 등 글쓴이의 능력으로는 매우 버거운 과제를 남기면서 부족한 글을 마친다.