데이터 공유에서 데이터 출판으로

서태설 | 한국과학기술정보연구원 책임연구원, 과편협 정보관리위원장

서 론

연구 커뮤니케이션에서 출판이라고 하면 학술지를 통한 논문 출판을 쉽게 연상할 것이다. 그런데 최근에는 데이터 출판에 대한 관심이 커지고 있다. 지금까지 데이터에 대한 논의는 데이터를 어떻게 공유할 것인가에 초점을 맞추었는데, 앞으로는 데이터를 어떻게 출판할 것인가로 논의의 초점이 바뀌고 있는 것이다. 과거에는 학술 논문의 근거로서 보조적 데이터 제공(supplementary data)이라는 측면에서 데이터 공유를 바라보았다면, 최근에는 제공된 데이터의 재현성(reproducibility) 검증과 재사용(reuse)이 중요하게 부각되고 있다. 그에 따라 데이터 공유(data sharing)를 넘어 데이터 출판(data publishing)까지 필요하게 되었다.


<그림 1> 데이터 출판의 개념[1]

데이터 출판의 개념

그렇지만 아직까지 데이터 출판의 개념은 학술지를 통한 논문 출판처럼 명확하게 정립되지는 못하였다. 지금까지 나온 데이터 출판의 개념은 그림 1과 같이 가용성(available), 설명성(documented), 인용 가능성(citable), 검증성(validated)의 4요소를 포함한다고 할 수 있다. 여기서는 데이터 출판의 4가지 요소에 대해서 간단히 살펴보도록 하겠다.

1. 가용성

지금까지 많은 연구 데이터는 연구기관이나 연구자 개인의 컴퓨터에서 관리되다가 폐기되어 영영 사라지는 경우가 많았다. 그래서 연구 결과에 대한 재현성 확보와 재사용은 거의 불가능에 가까웠다. 데이터의 가용성을 확보하기 위해서는 연구에 사용된 데이터를 신뢰할 수 있는 공적 데이터 리포지터리(data repository)에 기탁하여 보존하여 관리하고 제공하여야 한다. 데이터 리포지터리는 연구기관 자체적으로 구축할 수도 있고, 학술지나 주제 분야별로 구축할 수도 있다. Re3data.org 사이트(https://www.re3data.org)에 가면 공적 데이터 리포지터리를 찾아볼 수 있다. 이처럼 신뢰할 수 있는 공적 데이터 리포지터리에 데이터를 기탁하는 것만으로도, 초보적인 데이터 출판이라고 할 수 있다.

2. 설명성

데이터 리포지터리에 기탁된 데이터를 잘 활용하기 위해서는 그 데이터에 대한 설명 정보가 필요하다. 데이터에 대한 설명은 다른 사람이 그 데이터를 재사용하는 데 아무런 어려움이 없도록 하는 것이 중요하다. 그래서 좋은 데이터 리포지터리는 데이터와 함께 풍부한 메타데이터(rich metadata)를 제공한다. 여기서 더 나아가 데이터에 대한 설명을 출판하는 데이터 논문(data paper)도 등장하였다. 데이터 논문은 일반 학술지에 출판할 수도 있고, 데이터 전용 학술지인 데이터 저널(data journal)에 출판할 수도 있다. 데이터 논문은 일반 학술지 논문과 달리 연구방법, 결과 검토, 결론 등을 포함하지 않는, 짧으면서도 구조화된 형식을 취한다. 데이터 논문은 일반적으로 초록, 데이터 수집 방법, 데이터에 대한 설명 등으로 구성되며, 때때로 활용 사례를 포함하기도 한다. 이처럼 데이터 저널을 통해서 데이터 논문을 발간하는 것이 명실상부한 데이터 출판이라고 할 수 있을 것이다.

3. 인용 가능성

데이터의 인용은 일반 학술지 논문의 참고문헌처럼 취급할 수도 있으나, 논문의 인용과는 다른 특성이 있어서 어려움이 있다. 기본적으로 데이터의 인용은 데이터에 부여된 식별자를 활용할 수 있다. 데이터의 식별자는 학술지 논문과 같이 DOI (digital object identifier)를 사용하고 있다. 그런데 데이터는 논문과 달리 하나의 데이터셋(dataset)의 하부 요소(component)가 존재할 수 있고, 여러 개의 데이터셋이 하나의 컬렉션(collection)으로 구성되기도 한다(그림 2). 또한 데이터는 시간이 지남에 따라 업데이트될 수 있기 때문에 버전 관리도 필요하다. 이를 위해 여러 기관이 협력해서 데이터 인용에 대한 원칙을 만들어 보급하고 있다. 대표적인 것이 FORCE11에서 발표한 “Joint Declaration of Data Citation Principles”이다[2].


<그림 2> 데이터의 복합성[3].

4. 검증성

학술지 논문이 연구 성과로 인정받는 이유는 동료심사(peer review)를 함으로써 내용을 검증하기 때문일 것이다. 데이터는 지금까지 학술지 논문의 보조적 자료 정도로 여겨졌기 때문에 그 자체만으로서 연구 성과로 인정받기가 어려웠다. 하지만 최근에는 데이터 저널이 생겨나면서 데이터 논문에 대해 동료심사를 하고 있다. 일부 데이터 저널은 국제적인 색인 데이터베이스에 등재되어 있어서 연구 성과로 인정되고 있다. 데이터의 동료심사는 학술지의 경우와는 다른 양상을 보인다. 학술지 논문의 경우 연구 내용의 충실성과 혁신성을 위주로 평가하지만, 데이터 저널에서는 데이터셋 자체의 완전성, 설명의 충실성, 수집 방법의 정당성 등을 중심으로 평가한다. 데이터 저널로 출판되지 않은 수많은 데이터들도 검증이 필요한데, 데이터 리포지터리 운영기관들은 자체적으로 데이터 검증 체계를 마련하기도 한다.

데이터 출판 활성화 노력

데이터 출판이 활성화되기 위해서는 학술지처럼 데이터의 동료심사와 인용 분석을 통해서 성과로 인정받을 수 있는 체계가 마련되어야 할 것이다. 이를 위해 연구 데이터 관련 커뮤니티에서는 데이터의 인용을 위한 체계와 가이드라인을 개발하여 보급하고 있다[3].

고고학이나 지질학 등의 특정 분야를 필두로 데이터 출판이 활성화되고 있다. 향후 오픈 사이언스(open science)나 데이터 중심의 연구(data-intensive research)가 늘어나면서 데이터 출판은 더 많은 분야로 확산할 가능성이 있다. 국제적으로는 데이터 저널이 어느 정도 활성화되기 시작하였으나, 국내에서는 최근에 와서야 논의가 시작되어 아직 초보적인 수준에 머물고 있다. 국내에서도 데이터 출판에 관한 관심을 갖고 대비할 필요가 있다. 현재 우리나라에서는 KISTI와 KIGAM 등과 같은 출연연구원을 중심으로 “연구 데이터 출판 연구 융합 클러스터”가 만들어져 데이터 출판 활성화 방안을 논의하고 있다. 이를 중심으로 우리나라에서도 데이터 출판이 활성화되기를 기대해본다.

참고문헌

1. Kratz J, Strasser C. Data publication consensus and controversies. F1000Res 2014;3:94. https://doi.org/10.12688/f1000research.3979.3.

2. Data Citation Synthesis Group. Joint Declaration of Data Citation Principles. Martone M, editor. San Diego, CA: FORCE11; 2014. https://doi.org/10.25490/a97f-egyk.

3. Lowenberg D, Chodacki J, Fenner M, Kemp J, Jones MB. Open data metrics: lighting the fire (version 1). Zenodo; 2019. https://doi.org/10.5281/zenodo.3525349.

Copyright by Korean Council of Science Editors
The Korea Science & Technology Center 2nd floor, 22 Teheran-ro, 7-gil, Gangnam-gu, Seoul 06130, Korea
Tel: +82-2-3420-1390   Fax: +82-2-563-4931