본문 바로가기
자격증 공부/ADsP(데이터분석준전문가)

[ADsP 요약] ADsP 요약 공유(ADsP 3과목 요약 공유)

by 졸꾸러기 2023. 11. 4.

3과목 데이터 분석

 

1. 데이터 분석 기법의 이해

1) 데이터 처리 과정

데이터 분석을 위해서는 데이터웨어하우스(DW)나 데이터 마트(DM)을 통해 분석 데이터 구성

DW에 없는 데이터는 기존 운영시스템에서 직접 가져오거나 운영 데이터 저장소(ODS)에서 정제된 데이터를 가져와서 DW의 데이터와 결합하여 활용

2) 시각화 기법: 가장 낮은 수준의 분석이지만, 대용량의 데이터를 다룰 때 필수적

3) 공간분석: 다양한 차원과 관련된 속성들을 시각화하는 분석으로, 지도 위에 관련된 속성들을 생성하고 선 굵기 등을 구분하여 인사이트를 얻음

4) 탐색적 자료분석(EDA): 다양한 차원과 값을 조합해가며 의미있는 사실 도출

EDA4가지 주제: 저항성의 강조, 잔차계산, 자료변수의 재표현, 그래프를 통한 현시성

(문제) 데이터 특성을 파악하여 통찰을 얻기 위한 과정을 EDA 라고 한다 (O)

(문제) 클로링: 웹 페이지에서 데이터를 자동으로 수집하는 방법

 

2. 데이터 변경 및 요약

1) 요약변수와 파생변수

요약변수: 수집된 정보를 분석에 맞게 종합한 변수

: 공통으로 사용할 수 있어 재활용성 높음

() 기간별 구매 금액

파생변수: 사용자가 의미를 부여한 변수

: 매우 주관적일 수 있음

() 근무시간 구매지수

2) Reshape 패키지: 2개의 핵심적인 함수로 구성

melt(): 데이터를 적당한 형태로 만들어주는 함수

cast(): 대이터를 원하는 형태로 계산 또는 변형시켜주는 함수

3) sqldf 패키지: r에서 sql 명령어를 가능케 해주는 함수

4) plyr 패키지: apply 함수를 기반으로 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지

5) data.tabel: R에서 가장 많이 사용하는 데이터 핸들링 패키지 중 하나, 대용량의 데이터 탐색·연산·병합에 유용

 

3. 기초 분석 및 데이터 관리

1) 결과값 처리: 변수에 데이터가 비어 있는 경우: NA 등으로 표현

2) 단순 대치법

completes analysis: 결과값의 레코드 삭제

평균 대치법: 데이터의 평균으로 대치

3) 다중 대치법: 단순 대치법을 m번 실시하여, M개의 가상적 자료를 만들어 대치

 

4. 이상값 처리

1) 이상값 처리: 반드시 제거해야하는 것은 아님

2) 이상값의 인식 3가지 방법

ESD: 평균으로부터 3표준편차 떨어진 값

기하평균 2.5x표준편차 < DATA <기하평균 + 2.5x표준편차

Q1 1.5(Q3-Q1) < DATA < Q3 +1.5(Q3-Q1)를 벗어나는 데이터

(문제) 평균으로부터 3표준편차 벗어나는 것들을 이상치라 규정하고 제거한다 (X)

이상치 자체의 의미가 있을 수 있어 이상치여도 제거하면 안된다

 

5. 통계분석의 이해

1) 확률 및 확률분포

확률변수: 특정 값이 나타날 가능성이 확률적으로 주어지는 변수

이산형 확률분포: 베르누이, 이항, 다항, 기하 포아송 분포

연속형 확률분포: 균일, 정규, 지수, t, F, X2 분포

2) 추정 및 가설 검정

추정: 표본으로부터 모수를 추측하는 것

점추정: 모수가 특정값일거라고 추정

구간추정: 모수가 특정 구간에 있을 거라고 추정

가설검정

귀무가설(Ho): ‘차이가 없다를 가설로 두는 것

-1종 오류: 귀무가설이 옳은데도 귀무가설을 기각

-2종 오류: 귀무가설이 옳지 않은데도 귀무가설 채택

(문제) 이산형 확률변수는 사건의 확률이 그 사건들이 속한 점들의 확률의 합으로 표현할 수 있는 확률변수를 말한다 (O)

(문제) 확률변수 X가 구간 또는 구간들의 모임인 숫자값을 갖는 확률분포함수를 확률질량함수라 한다(X)

(문제) 귀무가설이 사실인데 기각해서 발생하는 오류를 유의수준이라 한다(O)

(문제) 귀무가설에 옳음에도 기각시킬 확률을 검정력이라 한다(X)

유의수준: 1종 오류를 범할 확률의 최대값(α)

검정력: 1-β (β: 2종 오류를 범할 확률)

 

6. 상관 분석

두 변수 간의 관계를 상관계수를 이용하여 알아보는 분석 방법

1) 특성: 상관계수가 1에 가까울수록 약의 상관관계, -1에 가까울수록 음의 상관관계, 0인 경우 상관관계 없음

상관계수는 1에서 +1 범위의 값이다

2) 유형

피어슨 상관계수: 등간척도, 연속형 변수, 정규성 가정 피어슨 r

스피어만 상관계수: 순서척도, 서열척도, 순서형 변수, 비모수적 방법

(문제) 피어슨 및 스피어만 상관계수 범위는 다르다 (X)

(문제) 상관계수로 변수 간 유의성을 확인할 수 없다 (O)

(문제) 상관계수로 변수 간 인과관계를 확인할 수 없다 (O)

 

7. 회귀분석

1) 회귀분석: 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법

2) 선형회귀분석 가정

선형성: 입력변수와 출력변수 관계가 선형

독립성: 오차와 독립변인은 관계가 없음

등분산성: 오차의 분산이 일정

비상관성: 오차들끼리 상관이 없음

정상성: 오차가 정규분포를 이룸

(문제) 독립변수와 종속변수 사이를 모형으로 나타내고 두 변수 관계를 도출하는 것은 회귀분석이다 (O)

3) 변수선택법

전진선택법: 중요한 변수를 차례로 추가

후진제거법: 가장 적은 영향을 주는 변수부터 제거

전체 변수들의 정보 이용 가능, 변수가 많을 경우 활용 어려움

단계별방법: 전진선택법에 의해 변수를 추가하면서 기존 변수의 중요성이 떨어지면 해당 변수를 제거하는 등 단계별로 추가 또는 삭제 여부 검토

 

8. 시계열 분석

1) 시계열 자료: 시간의 흐름에 따라 관찰된 값들, 시계열 자료 분석은 미래 예측

2) 분해 시계열: 시계열에 영향을 주는 요인을 시계열에서 분리하는 방법

추세요인: 오르거나 내리는 추세

계절요인: , 사분기별 등 고정된 주기에 따라 변화

순환요인: 알려지지 않은 요인에 따라 변화

불규칙요인: ~요인으로 설명할 수 없는 요인

3) 지수평활법: 최근 시계열에 가중치를 더 두는 것

4) 비정상 시계열을 정상시계열로 전환하는 방법

평균 일정 X 차분

분산 일정 X 자연로그(변환)

계절성 O 계절차분

(문제) 시계열자료가 추세를 갖는 경우, 변환을 통해서 정상시계열로 전환이 가능하다 (X)

추세가 아니라 분산

(문제) 순환변동은 경제 전반이나 특정 산업의 부침을 나타내주는 것을 의마한다 (X)

(문제) 시계열 분석을 통해 이상치는 확인할 수 없다 (X)

 

9. 다차원 척도법(MDS)

1) 다차원 척도법

정의: 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 또는 3차원 공간상에서 점으로 표현하는 분석방법

여러 대상간의 관계에 대한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시각화하는 방법

분석: 개체들 사이의 집단화를 시각적으로 표현

스트레스 값이 0에 가까울수록 좋은 모형

거리에 대한 비유사성 측정 차원 축소

비유사성을 유지하면서 낮은 차원으로의 투영을 찾는 것이 다차원척도법의 목적이다

(문제) 다차원 척도법은 데이터를 고차원에서 저차원으로 축소하는 방법으로, 독립변수들간 다중공선성 문제를 해결할 수 있다 (O)

2) 종류

계량적 MDS: 비율척도, 구간척도 활용

: 각 개체들간 유클리드 거리행렬 계산, 개체들간의 비유사성을 공간상에 표시

비계량적 MDS: 데이터가 순서척도인 경우 활용

 

10. 주성분분석

여러 변수들을 소수의 주성분으로 축소하여 데이터를 쉽게 이해하고 관리

1주성분, 2주성분 생성,,

1, 2,,, 순으로 중요

누적기여율 85% 이상이면 주성분으로 결정

(문제) 주성분에서 변수의 중요도 기준이 되는 값은? 고윳값

(문제) 주성분 개수(m)를 선택하는 방법에 대한 설명 -

평균고윳값 방법은 고윳값들의 평균을 구한 후 고윳값이 평균값 이상이 되는 주성분을 제거하는 방법이다 (X)

제거가 아니라 설정이다

 

11. 데이터 마이닝

1) 개요: 대용량의 데이터에서 의미있는 패턴을 파악하여 의사결정에 활용, 다양한 수리 알고리즘 이용

2) 분석방법

지도학습: 의사결정나무, 인공신경망(ANN), 로지스틱 회귀분석, 최근접이웃법, 사례기본 추론

비지도학습: OLAP, 연관규칙분석, 군집분석, SOM

3) 단계: 목적설정 데이터준비 가공 기법적용 검증

4)데이터 분할

구축용: 데이터 마이닝 모델을 만드는데 50%사용

검정용: 구축된 모형의 과대/과소 추정의 조정을 위해 30% 사용

시험용: 모델 성능 검증을 위해 20%사용

(문제) 과대 또는 과소적합을 미세조정 하는데 활용하는 데이터는? 검증 데이터

 

12. 분류분석

1) 분류분석

데이터가 어떤 그룹에 속하는지 예측하는데 사용

지도학습에 해당

지도학습: 의사결정나무, 인공신경망, 로지스틱 회귀분석 등

2) 의사결정나무

분류함수를 의사결정 규칙으로 이루어진 나무 모양으로 그리는 방법

특징

분류정확도가 좋음

대용량 데이터에서도 빠르게 만들 수 있음

비정상 잡음 데이터에 대해서도 민감함 없이 분류

불필요한 변수가 있어도 크게 영향받지 않음

아래로 내려갈수록 불순도 감소

형성과정: 성장 가지치기 타당성 평가 해석 및 예측

불순도 측정: 카이제곱 통계량, 지니지수, 엔트로피 지수

지니지수: 낮을수록 순수도가 높다

의사결정나무 분석의 종류

CART: 가장 많이 사용,

: 출력변수가 범주형일 경우 지니지수, 연속형일 경우 이진분리 사용

C4.5/C5.0: 범주형 입력변수에 대해서는 범주의 수만큼 분리가 일어남, 엔트로피 지수 이용

CHAID: 가지치기 없이 적당한 크기에서 중지, 임력변수는 반드시 범주형 사용, 측도로는 카이제곱 통계량 사용

3) 앙상블 분석: 여러개의 예측모형을 만든 후 하나로 조합

종류

배깅: 여러개의 붓스트랩 자료를 생성한 후 각 자료에 예측모형 결과를 결합하여 결과 선정

: 가지치기를 하지 않고 최대로 성장한 의사결정 나무 활용

부스팅: 배깅과 다른점은, 각 자료에 동일한 가중치를 주는 것이 아닌 분류가 잘못된 데이터에 더 큰 가중을 줌

랜덤포레스트: 배깅에 랜덤과정을 추가한 방법

(문제) 앙상블 분석은 각 모형의 상호연관성이 높을수록 정확도가 향상된다 (X)

4) 인공신경망

역전파 알고리즘을 활용해 비선형성 극복한 모델 등장

예측된 결과와 실제값이 차이인 에러로 가중치 조절

활성화 함수를 사용해 출력 결정

softmax함수: 출력값이 여러개로 주어지고 목표치가 다범주인 경우

신경망에 입력이 주어지면 신경망 모델의 화살표를 따라 은닉층에 도달한다

(문제) 은닉층이 너무 적으면 발생하는 문제는? () 네트워크가 복잡한 의사결정 경계를 만들 수 없다

(문제) 인공신경망의 활성함수인 시그모이드 함수값의 결과는? () 0-1

(문제) 인공신경망의 다중 분류 활성함수는? () 소프트맥스 함수

5) 로지스틱 회귀분석

반응변수가 범주형인 경우 적용되는 회귀분석 모형

exp(β)는 변수(X1, X2,,)가 주어질 때 X1이 한단위 증가할때마다 성공의 오즈가 몇 배 증가하는지 나타내는 값

③β>0이면 S, <0이면 역S자 모양

로지스틱 회귀분석은 카이제곱 검정을 실시

(문제) 로지스틱 회귀분석과 일반성형 회귀분석 모두 t test로 유의성 검정을 실시한다 (X)

(문제) 로지스틱 회귀모형의 모형검정 방법으로 알맞은 것은? () 카이제곱 검정

 

13. KNN알고리즘

새로운 데이터가 들어왔을 때 기존 데이터 사이의 거리를 측정해서 이웃을 뽑기 때문에 게으른모델, 또는 사례기반 학습이라 한다

단점으로는 데이터의 지역구조에 민감하다는 것이다

(문제) KNN은 분류기준이 명확하지 않으면 사용하기 어렵다 (X)

사례기반학습을 하기 때문에 분류기준 명확성과는 관계가 없다

 

ADsP 요약 공유 

ADsP 요약 PDF입니다

3과목 데이터 분석 (이론).pdf
0.08MB


[ADsP 정리3] ADsP 요약 공유(ADsP 2과목 요약 공유) (tistory.com)

 

[ADsP 정리3] ADsP 요약 공유(ADsP 2과목 요약 공유)

[ADsP 정리2] ADSP 요약 공유(ADSP 1과목 요약 공유) (tistory.com) [ADsP 정리2] ADSP 요약 공유(ADSP 1과목 요약 공유) [ADsP 정리1] ADSP 요약 공유(ADSP 1과목 요약 공유) (tistory.com) [ADsP 정리1] ADSP 요약 공유(ADSP 1

rud-study.tistory.com