작성자 : 임두빈 작성일 : 2023-11-19 17:51:33 조회수 : 416
국가 : 대한민국 언어 : 한국어
출처 : 인문한
발행일 : 2023.02.21
원문링크 : https://www.hknet.kr/news/articleView.html?idxno=364

데이터과학 및 인공지능 시대에 부합하는 인문사회 학술 데이터 관리

윤석준 | 성공회대 동아시아연구소 조교수

 

인문사회 학술연구 성과에 대한 데이터 관리의 필요성

 

학술연구 성과에 대한 수집(gathering), 저장(storage), 확산(diffusion), 분석(analysis), 평가(evaluation)를 보다 실효성 있게 진행하기 위해서, 데이터과학(Data science)과 인공지능(Artificial Intellectual)이 다방면에 활용되는 오늘날 변화에 부합하는 학술 데이터베이스(Database, DB)의 구축 및 운영이 최근 학계는 물론 정부에서도 중요한 과제로 부상하고 있다. 이는 인문사회 분야 학술 데이터가 수집 및 저장의 고도화를 통해서 관련 연구자들의 사용 편의를 증진시키고, 적극적 확산을 통해 사회적 효용감을 증진시켜 인문사회 학술 진흥의 토대를 마련하고, 그리고 분석 및 평가 모델을 발전시켜 연구진흥에 이바지하기 위해서도 매우 중요한 의미를 갖는다.

 

특히 최근 생성 인공지능(Generative AI)에 기반한 ChatGPT가 대중에 공개되어 세간의 주목을 받고 있는데, 일각에서는 학술지 게재가 가능한 수준의 논문 작성이 가능하다는 주장이 제기되기도 한다. 그러나 현재 생성 인공지능은 인문사회 분야에서 대학 학부 교과목 과제물 수준의 작성 능력은 일부 보여주고 있지만, 이것이 인문사회 분야 전문 연구자들의 역량을 당장 분담 혹은 대체하기에는 여러 한계가 있는 것이 사실이다. 무엇보다도 딥러닝(Deep Learning)을 위해 필요한 다양한 학술연구 성과들에 대한 기본적인 데이터 접근성에서부터 제약이 많고, 숙련된 전문 연구자들에 의한 메타 데이터 정보가 없으면 머신러닝(Machine Learning)에서도 한계가 있기 때문이다.

 

이에 데이터과학과 인공지능이 빠르게 발전해가고 있는 시대 변화에 부합하는 인문사회 학술 데이터 관리 정책이 요구되는 시점인 바, 본고는 한국의 기존 인문사회 학술 데이터 관리의 성과 및 한계를 간략히 살펴보고 이를 토대로 기존의 적층형 데이터베이스 관리를 통합적이고 개방적인 데이터 리포지터리(Data repository) 관리로 본격 전환할 것을 제언하고자 한다. 이는 단순한 보관과 적층에 충실한 아날로그 시대 학술 데이터에 대한 인식과 활용의 지평을 넘어서, 호환성, 개방성, 통합성에 기반한 디지털 시대 학술 데이터 관리로의 전환을 통해 궁극적으로 인문사회 학술연구에 있어 데이터과학과 인공지능을 새로운 기회의 장으로 만들기 위함이다.

출처: Pixabay
출처: Pixabay

 

한국의 인문사회 분야 학술 데이터 관리 성과와 한계

한국의 학술 데이터 관리는 2000년대 중반에 한국학술진흥재단이 처음으로 시작하여 2000년 후반에 한국과학재단, 한국학술진흥재단 및 국제과학기술협력재단이 하나로 통합된 이후로는 한국연구재단이 그 주도적인 역할을 수행해왔다. 그 과정에서 구축된 대표적인 학술 데이터베이스로는 인문학, 예술학, 사회과학 등 기초학문 분야의 연구사업 성과와 수행 과정에서 발생한 원자료를 모은 기초학문 자료센터(Korean Research Memory, KRM)와 국내 학술지, 수록논문, 참고문헌 정보를 데이터베이스로 구축한 한국학술지인용색인(Korea Citation Index, KCI), 그리고 국내 학술연구자들의 인적 및 업적 정보를 담은 한국 연구자정보(Korean Researcher Information, KRI) 등이 있다.

그러나 이러한 학술 데이터 관리는 과거 한국과학재단, 한국학술진흥재단 및 국제과학기술협력재단으로 나누어져 있던 학술진흥 및 연구지원관리에 대한 기존 시스템을 통합하는 것에 주로 초점을 맞추고 진행하다 보니, 학술 데이터베이스로서 갖추어야할 활용성, 호환성, 개방성, 통합성 등을 고려하여 장기적인 발전과 성장을 모색하기 힘든 구조적 한계를 지니게 되었다. 이러한 결과로 현재 인문사회 학술 데이터베이스는 데이터를 수집 및 보관하는 기관이 이를 '적층'의 대상으로 바라보는 관점은 충실히 반영된 반면, 학술 연구자들이나 일반 대중이 데이터를 '활용'하는 관점은 그 설계에 충실히 반영되어 있지 않다.

또한 한국연구재단 내에서 운영하는 학술 데이터베이스 사이에 호환성이 부족한 것도 근본적으로 개선이 필요한 지점이다. 앞서 먼저 구축된 데이터베이스와의 상호 호환을 전제로 후속 학술 데이터베이스가 설계되지 않다 보니 KRM, KCI, KRI 사이에서도 서로 연결되지 않는 데이터 구조가 많이 존재한다. 그리고 인문사회 분야의 제한된 국가 연구비 규모에서 상당한 비중이 투입된 한국사회과학연구(Social Sciences Korea, SSK)나 인문한국지원사업(Humanities Korea, HK)의 학술연구 성과 데이터도 그 체계적 활용에 많은 한계가 있어, 데이터과학이나 인공지능에 기반하여 학술 데이터를 다양하게 활용하려 해도 쉽지 않은 구조적인 한계를 지니고 있다.

열린 형태의 데이터, 데이터 리포지토리, 학술성과 특화 검색엔진

다양한 학술 데이터와의 호환을 전제로 열린 플랫폼(Open platform)으로 발전해가고 있는 선진국들의 학술 데이터 관리를 참고하여, 정부의 연구진흥기관이 가진 방대한 학술 데이터가 더 많은 이용자에게 열리고 더 많은 협력자가 생길 수 있도록 개방성을 더욱 강화할 필요가 있다. 유럽의 경우 다양한 민간 행위자들이 창의적이고 도전적인 목표와 방식으로 학술 데이터를 활용하며 학술 데이터 생태계를 빠르게 확대 및 고도화 시켜가고 있는 바, 우리도 인문사회 학술 데이터를 국가기관 주도로 '적층'하는데 머무르지 않고, 여러 민간 행위자가 다양한 목적을 가지고 학술 데이터 '활용'에 적극 참여하는 데이터 생태계를 조성하는 전략 및 관련 지원 정책이 필요하다.  

 

또한 한국은 인문사회 학술 데이터를 데이터베이스로 일차원적 관리를 하고 있으나 오늘날 주요 선진국들은 학술 데이터를 보다 입체화 된 데이터 리포지터리로 관리하는 방향으로 진화해온 바, 이와 관련해 우리의 학술 데이터 접근 방식에 대한 근본적인 재검토도 필요한 상황이다. 데이터 리포지터리는 데이터베이스와 비교할 때 상대적으로 대규모 및 복합적 데이터 플랫폼의 성격을 가지면서, 학술 데이터의 분석, 공유, 보고가 용이하도록 학술 데이터를 수집, 관리, 저장하게 된다. 이는 학문간 융복합의 심화 및 확대, 그리고 데이터 분석 및 활용의 편의성 및 효용성 측면에서 데이터베이스에 비해 앞선다는 평가를 받고 있다.

 

그리고 인문사회 학술 데이터는 검색엔진을 통해서 다양한 목적으로 이를 필요로 하는 이용자들에게 활용되는 바, 그 활용도 제고에 있어 중요한 인문사회 학술 데이터에 특화된 검색엔진 개발도 요구된다. 학술 데이터는 일반 데이터와 근본적으로 차별화된 성격을 지니고 있고, 때로는 전문 연구자들에 의한 메타 데이터 생성이 요구되기도 하는 바, 현재 주요 검색엔진들에서 학술검색 부분은 가장 더디게 발전하고 있는 것이 현실이다. 이에 정부의 연구진흥기관이 네이버, 카카오, 구글 등과 같은 주요 검색엔진을 운영하는 민간 기업과의 협업 모색을 통하여, 인문사회 분야 학술 데이터에 맞는 검색 기능이 해당 검색엔진에서 개발될 수 있도록 노력할 필요가 있다.

 

Quick Menu

TOP