자료(행정)

데이터 과학 기초 연구 - 김혜란/임경민, 통계개발원, 2021

바람과 술 2021. 10. 9. 15:24

제1장 서론

 

1. 연구배경

 

통계 조사환경이 빠르게 변화하고 있다.

- 4차 산업혁명시대에 빅데이터를 ICT 기술과 연계하여, 신속·정확하게 정보를 창출하고 활용하는 데이터 과학의 중요성이 강조되고 있다. 

 

시대의 흐름에 따라 국가통계도 변화를 요구받고 있다.

- 인터넷에 연결되는 사물인터넷(lot) 및 웨어러블 시장의 출현으로 대규모 데이터가 자동으로 양산되어 기존 국가통계 생산체계의 변화가 요구되고 있다. 

- 또한, 국가통계는 특성상 현상 설명에 주안점을 두고 있으나, 통계 분야별로 예측과 다출처자료 연계 필요성이 증가되고 있는 상황이다. 

 

2. 연구목적

 

제2장 데이터 과학 기초자료 및 동향탐색

 

1. 데이터 과학의 기본개념

 

① 데이터 과학의 정의

 

데이터 과학의 사전적 의미 및 학계, 통계학자, 데이터 과학자가 말하는 데이터 과학의 정의는 다음과 같다. 

- 데이터 과학이란, 데이터마이닝과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 프로세스, 알고리즘, 시스템을 동원하는 융합분야이다. 

- 데이터 과학은 대용량 데이터로부터 통찰력과 지식을 얻고 추론하기 위한 과학적 방법론과 인간과 사회에 유용한 디지털 술루션을 만들어 적용하고 개선하는 공학적 측면을 포괄하는 새로운 학문이다. 

- 데이터 과학은 데이터의 수집과 저장에 필요한 프로세싱 기술과 데이터 분석에 관한 지식을 기반으로 다량의 데이터로부터 패턴을 찾아내고, 통계적 추정, 예측모델링 등을 통하여 필요한 정보를 창출하고, 이를 실제로 활용하는 것을 연구하는 융합과학이다. 

 

② 데이터 과학 관련 학문

 

데이터 과학은 통계학, 데이터 시각화, 데이터마이닝, 기계학습, 인공지능, 데이터베이스 및 프로세싱 등 여러 학문과 연관이 있으며, 그 핵심에 데이터 과학이 있다. 

 

<데이터마이닝과 머신러닝 비교>

구분 데이터마이닝 머신러닝
사용되는 기법 연관분석, 회귀분석, 분류 지도학습, 비지도학습, 강화학습
분석방법론 통계학적 관점 방법론 컴퓨터사이언스 관점 방법론
목적 패턴이나 인사이트 추론 정확한 예측
활용분야 리서치분야 비즈니스분야

 

2. 데이터 과학 연구영역

 

① 데이터 과학의 포괄범위

 

② 데이터 과학의 업무영역

 

3. 데이터 과학 동향파악

 

① 데이터 과학 인재양성 동향

 

② 데이터 과학 정책 동향

 

③ 데이터 과학 도입 쟁점

 

제3장 데이터 과학 국가통계 활용사례

 

1. 데이터 과학 활용 해외사례

 

2. 데이터 과학 활용 국내사례

 

① 외부 데이터 과학 활용사례

 

② 통계청 데이터 과학 활용사례

 

제4장 데이터 과학 국가통계 적용분석

 

<빅데이터 시대 정부의 역할>

구분 내용
공급자 경제성장과 기업혁신에 필요한 데이터를 정기적으로 공개, 데이터 품질과 접근성 개선을 위한 지속적인 노력
선도자 정부 데이터뿐 아니라 공공기관, 지방정부, 국공영기업, 지방정부, 국공영기업, 민간기업 등이 보유하고 있는 데이터도 공개
촉매자 데이터 이용자, 애플리케이션 개발자, 데이터 기반 산업 등 데이터 생태계 활성화를 위해 오픈데이터가 활용될 수 있도록 역할을 수행
활용자 공공기관의 공공데이터 활용 촉진 관련 기술에 대한 투자, 내부 의사결정의 개선과 새로운 서비스 창출을 지원하기 위한 고급 분석 서비스를 제공, 오픈데이터를 활용한 상품과 서비스가 민간 영역에서 개발될 수 있도록 주도적인 역할을 담당

 

1. 데이터 과학 통계생산 분석

 

① 통계분류 자동코딩 및 시스템 연구

 

② 자료정제 및 무응답자료처리 연구

 

③ 자료 내검규칙 적용 연구

 

2. 국가통계 관리체계 재설계

 

① 국가통계 승인제도 개편 연구

 

② 국가통계 품질진단 개선 연구

 

통계품질진단은 통계자료가 정확한지, 시의적절한지, 유용한지, 이용자가 쉽게 접근할 수 있는지, 분석하고 활용하기 편리한지를 확인하기 위해 통계를 만드는 전체 과정을 진단하는 절차이다.

 

통계품질관리 관련 용어의 정의 및 통계품질이 6차원 측면에서 품질관리 검토

- 관련성, 정확성, 시의성, 비교성, 일관성, 접근성

 

③ 통계기반 정책평가 제도 연구

 

3. 국가통계 활용 및 확산 지원

 

① 데이터 DB 및 연계시스템 구축 연구

 

② 데이터 과학 역량강화 방안 마련

 

③ 정보제공(서비스) 및 협업네트워크 구축 강화

 

제5장 결론 및 시사점

 

1. 결론

 

2. 시사점