자료(경제경영)

[경영을 위한 데이터마이닝], 김종우/김선태, 한경사, 2018 중 <데이터마이닝 프로세스>

바람과 술 2021. 6. 24. 00:51

무엇이 잘못되었나

 

데이터마이닝은 미래에 더 나은 결정들을 내리기 위하여 과거를 통해서 학습하는 방법이다. 이 장에서 설명되는 모범 사례들은 두 가지 좋지 않은 결과들을 피하기 위해 설계된 것이다. ○ 사실이 아닌 것을 학습하는 경우. ○ 사실이지만 유용하지 않는 것을 학습하는 경우. 

 

모형 집합은 데이터마이닝 모형들을 개발하는 데 쓰이는 과거 데이터의 모음이다. 모형 집합으로부터 이루어진 추론이 유효하기 위해서는 모형 집합은 모형이 설명, 분류, 혹은 점수화하고자 하는 모집단을 반영해야 한다. 모집단을 제대로 반영하지 않은 표본을 편향되었다고 한다. 편향된 표본을 모형 집합으로 사용하는 것은 사실이 아닌 것을 학습하는 데 결정적인 역할을 한다. 

 

데이터마이닝 스타일

 

데이터마이닝은 '의미 있는 결과를 생성하기 위한 방대한 양의 데이터의 탐색과 분석'을 포함한다. 이것은 여러 가지 다양한 접근법들을 포괄하는 광범위한 정의이다. 이들에는 세 가지 주요한 스타일이 포함된다. ○ 가설 검정. ○ 방향성 데이터마이닝. ○ 무방향성 데이터마이닝. 

 

방향성 데이터마이닝은 다른 스타일의 데이터마이닝이다. 방향성 데이터마이닝은 하나 또는 다수의 목표변수에 초점이 맞춰져 있으며, 과거 데이터들은 모두 목표변수들의 값들을 가지고 있어야 한다. 다시 말해서, 방향성 데이터마이닝은 단순히 데이터 내의 임의의 패턴을 찾는 것이 아니고, 목표변수를 설명하는 패턴을 찾고자 한다. 통계학에서, 예측 모델링이 방향성 데이터마이닝과 거의 동일한 의미로 사용되었다. 하지만 저자들의 의견으로는 이것은 부적절하다.

 

무방향성 데이터마이닝은 목표변수를 사용하지 않는 (적어도 명시적으로 사용하지는 않는) 데이터마이닝 유형이다. 방향성 데이터마이닝에서 변수들은 다른 역할을 한다. 목표변수는 연구에 주관심 대상이고, 나머지 변수들은 이 목표변수의 값들을 설명하거나 예측하기 위해서 사용된다. 무방향성 데이터마이닝에서는 특별한 역할을 가지는 변수가 없다. 무방향성 데이터마이닝의 목표는 전체적인 패턴을 찾는 것이다. 패턴들이 발견된 후에, 분석가는 이것을 해석할 책임이 있으며, 이들이 유용한지 여부를 판단해야 한다. 

 

목표, 작업, 그리고 기법

 

데이터마이닝 문제 풀어가기 : 목표에서 작업으로, 작업에서 기법으로 

 

어떤 작업에 어떤 기법이 사용되나

 

정리