자료(경제경영)

[경영을 위한 데이터마이닝], 김종우/김선태, 한경사, 2018 중 <통계 기초 : 데이터에 대해 알아야 할 것들>

바람과 술 2021. 6. 25. 07:41

과거에 통계학의 대부분에서는 데이터가 너무 많아서 문제가 되기보다는 데이터의 부족이 문제가 되었다. 현대 통계학의 창시자들에게 기념비적이며 눈에 띄는 점은 매우 적은 양의 데이터를 기반으로 만들어진 기법들이 아직까지 살아남아서 유용성을 자랑한다는 점이다. 

 

오컴의 면도칼

 

오컴의 면도칼의 다른 면은 설명을 과도하게 단순화해서는 안 된다는 것이다. 만일 과도한 단순화가 실제로 일어날 일을 이해하는 것을 방해한다면, 과도한 단순화는 과도한 복잡화만큼 나쁘다. 

 

데이터 엿보기

 

통계량이란 데이터의 표본에 대해 척도를 의미한다. 데이터마이닝에 사용되는 데이터의 대부분은 본질적으로 연속적이기보다는 범주형이다. 범주형 필드의 가장 설명적인(기술적인) 통계량은 각 값들이 나타나는 횟수다. 시계열 분석은 데이터에 대한 적당한 시간 프레임을 정하는 것을 요구한다. 이것은 시간의 단위뿐만 아니라, 다루기 시작할 시점을 결정하는 것까지 표현한다. 시계열 차트는 유용한 정보를 제공하지만, 시간에 따른 변화가 있는지 대한 여부는 알려주지 않는다. 여기서는 통계학적 도구들의 도움이 필요하다. 

 

○ 범위 : 범위는 표본 내에서 가장 큰 값과 가장 작은 값의 차를 나타낸다. 범위는 가장 큰 값과 가장 작은 값 자체와 함께 참고되는 경우가 많다. ○ 평균 : 일상적으로 평균이라고 부르는 것이다. ○ 중간값 : 중간값을 기준으로 관찰 결과들을 2개의 같은 크기의 집단으로 나눌 수 있는데, 하나는 중간값보다 큰 값들만으로 이루어지고 하나는 작은 값들만으로 이루어진다. ○ 최빈값 : 가장 많이 나타나는 값이다. 

 

응답측정

 

다중 비교

 

카이제곱 검정

 

사례 : 지역과 가입에 대한 카이제곱

 

사례 연구 : A/B 테스트를 활용한 두 가지 추천 시스템의 비교

 

테이터마이닝과 통계

 

정리

 

통계학에서 제기되는 가장 큰 의문점들 중 하나는 관측된 값들이 예상될 수 있는 것인지의 여부에 대한 것이다.