프로그래밍

데이터마이닝

roquen4145 2017. 3. 7.

데이터마이닝 과목 요약 게시글입니다

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

□ 데이터 마이닝

Stastics

DataBase

Machine Learning

생산되는 데이터의 양이 급격하게 늘어나는 반면 의미있는 데이터의 비율은 비슷하거나 줄어드는 경향이 있기 때문에 데이터 마이닝이 필요하다

□ 데이터 마이닝의 순서

Data Collection ( Information Extraction ) + Integration
Storing in Data Warehouse ( Aggregation )
Selecting Task-relevant Data
Data Mining
Pattern Evaluation ( Visualization )

□ 데이터 마이닝의 목표 : Prediction / Description

Recommendation System ( Prediction )

Stock ( Description )

□ 데이터 마이닝 방법

Generalization Common or Contrast traits
Association and Correlation Analysis Frequent patterns , Correlation vs Causality
Sequential Pattern , Trend Analysis Evolution
Structure and Network Analysis Graph mining
Classification Tagging , supervised learning
Cluster Analysis Unsupervised learning
Outlier Analysis Noise or non-trivial Data

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

□ Data Objects and Attribute

데이터 오브젝트는 사물이나 개념을 데이터로 표현한 것이며 Attribute는 그 Data Object의 성질을 나타내는 것이다

Attribute는 크게 Categorical Attribute와 Numerical Attribute가 있다. Categorical Attribute는 우열을 가릴수 없는 Binary, Nominal, Ordinal Value를 포함하고 Numerical Attribute는 어떤것이 더 큰지 나타낼 수 있는 Interval, Ratio Value가 있다.

Nominal Attribute

Nominal Attribute는 상태나 사물의 이름을 나타낸다.

Binary Attribute

Binary Attribute는 두 가지 종류의 상태만 있는 Nominal Attribute를 말한다. 상태의 importance에 따라 Symmertic binary와 assymmetric binary로 나뉜다.

Symmetric binary는 주어진 두 종류의 상태의 importance가 동일한 binary attribute이다. 예를 들면 성별 같이 남자 혹은 여자 모두 같은 중요도를 가진 요소이다.

Assymmetric binary는 한 쪽의 상태는 별로 중요하지 않은 binary attribute이다. 예로 어떤 병의 발병 상태가 있다.

Ordinal Attribute

상태를 나눌 때 의미있는 순서로 나뉘지만 그 기준은 애매한 attribute이다. 사이즈를 S, M , L로 나눈 경우나 군대 계급이 그 예이다.

////

Interval Attribute

동일한 단위로 값이 측정되는 값들을 말합니다. 측정값에 따라 0이 있겠지만 True 0는 아닙니다. 온도나 시계의 시간이 그 예입니다.

Ratio Attribute

Interval attribute와 다르게 true zero가 있는 측정값들입니다. 나이나 몸무게가 그 예입니다.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

□ 통계학적 데이터 표현

데이터를 표현하는것은 많은 요소를 통해 이루어질 수 있습니다. 데이터의 최대값, 최소값, 평균, 중간값 등등 많은 요소가 있는데 이런 요소들이 공통적으로 나타내는 데이터의 경향은 두 가지가 있습니다. 첫째는 데이터가 얼마나 중심에 모여있는지를 나타내고 둘째는 데이터가 얼마나 퍼져있는지를 나타냅니다.

데이터가 얼마나 중심에 모여있는지를 나타내는 요소로는 평균, 중간값, 최빈값이 있습니다.

데이터가 얼마나 퍼져있는지 나타내는 요소로는 분산, 표준편차가 있습니다.

분포에 대해 자주 사용하는 개념 중 Quartiles가 있습니다. Quartiles는 quantiles가 4개 있는 경우를 말하는데 쉽게 말하면 전체 분포를 4개로 나눈 경우를 말합니다. 그래서 Quartiles에는 나눠지는 지점이 Q0,Q1,Q2,Q3로 4개가 있는데 Q0는 zero percentile로 포함되는 범위가 0%인 지점을 말합니다. Q1는 25%까지, Q2는 50%까지, Q3은 75%까지 입니다. 그래서 Q2는 median을 나타내는 지점과 같습니다.

Q1에서 Q3까지의 범위를 IQR (Inter-Quartile Range)라고 부르는데 이 범위에 1.5배를 곱한 범위를 넘아가는 값들을 Outlier라고 부릅니다.

위에서 말한 데이터들의 표현을 그냥 수치로 표현할 수도 있지만 더 보기 좋게 그림으로 나타내는게 효과적입니다. 그래서 boxplot, histogram, scatter plot, quantile-quantile plot , heat map 등을 사용해서 표현합니다.

QQplot에 대해 더 설명하면 다른 그림들은 각 하나의 분포를 표현하지만 QQplot은 두개의 데이터의 분포를 비교하는 plot입니다. 두 개의 데이터가 비슷할 수록 y=x 그래프에 가깝게 그려집니다.

이러한 그래프들을 그리기 위해 R이나 매틀랩을 이용합니다.

'프로그래밍' 카테고리의 다른 글

R 프로그래밍 piglatin (0)	2017.04.04
R 프로그래밍 데이터프레임 만들기 (0)	2017.03.30
컴퓨터구조 (0)	2017.03.06
운영체제론 (0)	2017.03.06
인공지능 (0)	2017.03.02

데이터마이닝

'프로그래밍' 카테고리의 다른 글

댓글

티스토리툴바