3과목 데이터 분석
1. 데이터 분석 기법의 이해
1) 데이터 처리 과정
①데이터 분석을 위해서는 데이터웨어하우스(DW)나 데이터 마트(DM)을 통해 분석 데이터 구성
②DW에 없는 데이터는 기존 운영시스템에서 직접 가져오거나 운영 데이터 저장소(ODS)에서 정제된 데이터를 가져와서 DW의 데이터와 결합하여 활용
2) 시각화 기법: 가장 낮은 수준의 분석이지만, 대용량의 데이터를 다룰 때 필수적
3) 공간분석: 다양한 차원과 관련된 속성들을 시각화하는 분석으로, 지도 위에 관련된 속성들을 생성하고 선 굵기 등을 구분하여 인사이트를 얻음
4) 탐색적 자료분석(EDA): 다양한 차원과 값을 조합해가며 의미있는 사실 도출
⦁EDA의 4가지 주제: 저항성의 강조, 잔차계산, 자료변수의 재표현, 그래프를 통한 현시성
(문제) 데이터 특성을 파악하여 통찰을 얻기 위한 과정을 EDA 라고 한다 (O)
(문제) 클로링: 웹 페이지에서 데이터를 자동으로 수집하는 방법
2. 데이터 변경 및 요약
1) 요약변수와 파생변수
①요약변수: 수집된 정보를 분석에 맞게 종합한 변수
: 공통으로 사용할 수 있어 재활용성 높음
(예) 기간별 구매 금액
②파생변수: 사용자가 의미를 부여한 변수
: 매우 주관적일 수 있음
(예) 근무시간 구매지수
2) Reshape 패키지: 2개의 핵심적인 함수로 구성
①melt(): 데이터를 적당한 형태로 만들어주는 함수
②cast(): 대이터를 원하는 형태로 계산 또는 변형시켜주는 함수
3) sqldf 패키지: r에서 sql 명령어를 가능케 해주는 함수
4) plyr 패키지: apply 함수를 기반으로 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지
5) data.tabel: R에서 가장 많이 사용하는 데이터 핸들링 패키지 중 하나, 대용량의 데이터 탐색·연산·병합에 유용
3. 기초 분석 및 데이터 관리
1) 결과값 처리: 변수에 데이터가 비어 있는 경우: NA 등으로 표현
2) 단순 대치법
①completes analysis: 결과값의 레코드 삭제
②평균 대치법: 데이터의 평균으로 대치
3) 다중 대치법: 단순 대치법을 m번 실시하여, M개의 가상적 자료를 만들어 대치
4. 이상값 처리
1) 이상값 처리: 반드시 제거해야하는 것은 아님
2) 이상값의 인식 3가지 방법
①ESD: 평균으로부터 3표준편차 떨어진 값
②기하평균 –2.5x표준편차 < DATA <기하평균 + 2.5x표준편차
③Q1 – 1.5(Q3-Q1) < DATA < Q3 +1.5(Q3-Q1)를 벗어나는 데이터
(문제) 평균으로부터 3표준편차 벗어나는 것들을 이상치라 규정하고 제거한다 (X)
→이상치 자체의 의미가 있을 수 있어 이상치여도 제거하면 안된다
5. 통계분석의 이해
1) 확률 및 확률분포
①확률변수: 특정 값이 나타날 가능성이 확률적으로 주어지는 변수
⦁이산형 확률분포: 베르누이, 이항, 다항, 기하 포아송 분포
⦁연속형 확률분포: 균일, 정규, 지수, t, F, X2 분포
2) 추정 및 가설 검정
①추정: 표본으로부터 모수를 추측하는 것
⦁점추정: 모수가 특정값일거라고 추정
⦁구간추정: 모수가 ‘특정 구간’에 있을 거라고 추정
②가설검정
⦁귀무가설(Ho): ‘차이가 없다’를 가설로 두는 것
-1종 오류: 귀무가설이 옳은데도 귀무가설을 기각
-2종 오류: 귀무가설이 옳지 않은데도 귀무가설 채택
(문제) 이산형 확률변수는 사건의 확률이 그 사건들이 속한 점들의 확률의 합으로 표현할 수 있는 확률변수를 말한다 (O)
(문제) 확률변수 X가 구간 또는 구간들의 모임인 숫자값을 갖는 확률분포함수를 확률질량함수라 한다(X)
(문제) 귀무가설이 사실인데 기각해서 발생하는 오류를 유의수준이라 한다(O)
(문제) 귀무가설에 옳음에도 기각시킬 확률을 검정력이라 한다(X)
→유의수준: 1종 오류를 범할 확률의 최대값(α)
→검정력: 1-β (β: 2종 오류를 범할 확률)
6. 상관 분석
⤷두 변수 간의 관계를 상관계수를 이용하여 알아보는 분석 방법
1) 특성: 상관계수가 1에 가까울수록 약의 상관관계, -1에 가까울수록 음의 상관관계, 0인 경우 상관관계 없음
→ 상관계수는 –1에서 +1 범위의 값이다
2) 유형
①피어슨 상관계수: 등간척도, 연속형 변수, 정규성 가정 피어슨 r
②스피어만 상관계수: 순서척도, 서열척도, 순서형 변수, 비모수적 방법
(문제) 피어슨 및 스피어만 상관계수 범위는 다르다 (X)
(문제) 상관계수로 변수 간 유의성을 확인할 수 없다 (O)
(문제) 상관계수로 변수 간 인과관계를 확인할 수 없다 (O)
7. 회귀분석
1) 회귀분석: 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
2) 선형회귀분석 가정
①선형성: 입력변수와 출력변수 관계가 선형
②독립성: 오차와 독립변인은 관계가 없음
③등분산성: 오차의 분산이 일정
④비상관성: 오차들끼리 상관이 없음
⑤정상성: 오차가 정규분포를 이룸
(문제) 독립변수와 종속변수 사이를 모형으로 나타내고 두 변수 관계를 도출하는 것은 회귀분석이다 (O)
3) 변수선택법
①전진선택법: 중요한 변수를 차례로 추가
②후진제거법: 가장 적은 영향을 주는 변수부터 제거
⤷전체 변수들의 정보 이용 가능, 변수가 많을 경우 활용 어려움
③단계별방법: 전진선택법에 의해 변수를 추가하면서 기존 변수의 중요성이 떨어지면 해당 변수를 제거하는 등 단계별로 추가 또는 삭제 여부 검토
8. 시계열 분석
1) 시계열 자료: 시간의 흐름에 따라 관찰된 값들, 시계열 자료 분석은 미래 예측
2) 분해 시계열: 시계열에 영향을 주는 요인을 시계열에서 분리하는 방법
①추세요인: 오르거나 내리는 추세
②계절요인: 월, 사분기별 등 고정된 주기에 따라 변화
③순환요인: 알려지지 않은 요인에 따라 변화
④불규칙요인: ①~③요인으로 설명할 수 없는 요인
3) 지수평활법: 최근 시계열에 가중치를 더 두는 것
4) 비정상 시계열을 정상시계열로 전환하는 방법
①평균 일정 X → 차분
②분산 일정 X → 자연로그(변환)
③계절성 O → 계절차분
(문제) 시계열자료가 추세를 갖는 경우, 변환을 통해서 정상시계열로 전환이 가능하다 (X)
→추세가 아니라 분산
(문제) 순환변동은 경제 전반이나 특정 산업의 부침을 나타내주는 것을 의마한다 (X)
(문제) 시계열 분석을 통해 이상치는 확인할 수 없다 (X)
9. 다차원 척도법(MDS)
1) 다차원 척도법
①정의: 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 또는 3차원 공간상에서 점으로 표현하는 분석방법
②여러 대상간의 관계에 대한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시각화하는 방법
③분석: 개체들 사이의 집단화를 시각적으로 표현
④스트레스 값이 0에 가까울수록 좋은 모형
⑤거리에 대한 비유사성 측정 → 차원 축소
⤷비유사성을 유지하면서 낮은 차원으로의 투영을 찾는 것이 다차원척도법의 목적이다
(문제) 다차원 척도법은 데이터를 고차원에서 저차원으로 축소하는 방법으로, 독립변수들간 다중공선성 문제를 해결할 수 있다 (O)
2) 종류
①계량적 MDS: 비율척도, 구간척도 활용
: 각 개체들간 유클리드 거리행렬 계산, 개체들간의 비유사성을 공간상에 표시
②비계량적 MDS: 데이터가 순서척도인 경우 활용
10. 주성분분석
①여러 변수들을 소수의 주성분으로 축소하여 데이터를 쉽게 이해하고 관리
②제1주성분, 제2주성분 생성,,
1, 2,,, 순으로 중요
③누적기여율 85% 이상이면 주성분으로 결정
(문제) 주성분에서 변수의 중요도 기준이 되는 값은? 고윳값
(문제) 주성분 개수(m)를 선택하는 방법에 대한 설명 -
평균고윳값 방법은 고윳값들의 평균을 구한 후 고윳값이 평균값 이상이 되는 주성분을 제거하는 방법이다 (X)
→제거가 아니라 설정이다
11. 데이터 마이닝
1) 개요: 대용량의 데이터에서 의미있는 패턴을 파악하여 의사결정에 활용, 다양한 수리 알고리즘 이용
2) 분석방법
①지도학습: 의사결정나무, 인공신경망(ANN), 로지스틱 회귀분석, 최근접이웃법, 사례기본 추론
②비지도학습: OLAP, 연관규칙분석, 군집분석, SOM
3) 단계: 목적설정 → 데이터준비 → 가공 → 기법적용 →검증
4)데이터 분할
①구축용: 데이터 마이닝 모델을 만드는데 50%사용
②검정용: 구축된 모형의 과대/과소 추정의 조정을 위해 30% 사용
③시험용: 모델 성능 검증을 위해 20%사용
(문제) 과대 또는 과소적합을 미세조정 하는데 활용하는 데이터는? 검증 데이터
12. 분류분석
1) 분류분석
①데이터가 어떤 그룹에 속하는지 예측하는데 사용
②지도학습에 해당
⤷지도학습: 의사결정나무, 인공신경망, 로지스틱 회귀분석 등
2) 의사결정나무
①분류함수를 의사결정 규칙으로 이루어진 나무 모양으로 그리는 방법
②특징
⦁분류정확도가 좋음
⦁대용량 데이터에서도 빠르게 만들 수 있음
⦁비정상 잡음 데이터에 대해서도 민감함 없이 분류
⦁불필요한 변수가 있어도 크게 영향받지 않음
⦁아래로 내려갈수록 불순도 감소
③형성과정: 성장 → 가지치기 → 타당성 평가 → 해석 및 예측
④불순도 측정: 카이제곱 통계량, 지니지수, 엔트로피 지수
⤷지니지수: 낮을수록 순수도가 높다
⑤의사결정나무 분석의 종류
⦁CART: 가장 많이 사용,
: 출력변수가 범주형일 경우 지니지수, 연속형일 경우 이진분리 사용
⦁C4.5/C5.0: 범주형 입력변수에 대해서는 범주의 수만큼 분리가 일어남, 엔트로피 지수 이용
⦁CHAID: 가지치기 없이 적당한 크기에서 중지, 임력변수는 반드시 범주형 사용, 측도로는 카이제곱 통계량 사용
3) 앙상블 분석: 여러개의 예측모형을 만든 후 하나로 조합
①종류
⦁배깅: 여러개의 붓스트랩 자료를 생성한 후 각 자료에 예측모형 결과를 결합하여 결과 선정
: 가지치기를 하지 않고 최대로 성장한 의사결정 나무 활용
② 부스팅: 배깅과 다른점은, 각 자료에 동일한 가중치를 주는 것이 아닌 분류가 잘못된 데이터에 더 큰 가중을 줌
③랜덤포레스트: 배깅에 랜덤과정을 추가한 방법
(문제) 앙상블 분석은 각 모형의 상호연관성이 높을수록 정확도가 향상된다 (X)
4) 인공신경망
①역전파 알고리즘을 활용해 비선형성 극복한 모델 등장
⤷예측된 결과와 실제값이 차이인 에러로 가중치 조절
②활성화 함수를 사용해 출력 결정
③softmax함수: 출력값이 여러개로 주어지고 목표치가 다범주인 경우
④신경망에 입력이 주어지면 신경망 모델의 화살표를 따라 은닉층에 도달한다
(문제) 은닉층이 너무 적으면 발생하는 문제는? (답) 네트워크가 복잡한 의사결정 경계를 만들 수 없다
(문제) 인공신경망의 활성함수인 시그모이드 함수값의 결과는? (답) 0-1
(문제) 인공신경망의 다중 분류 활성함수는? (답) 소프트맥스 함수
5) 로지스틱 회귀분석
①반응변수가 범주형인 경우 적용되는 회귀분석 모형
②exp(β)는 변수(X1, X2,,)가 주어질 때 X1이 한단위 증가할때마다 성공의 오즈가 몇 배 증가하는지 나타내는 값
③β>0이면 S자, <0이면 역S자 모양
④로지스틱 회귀분석은 카이제곱 검정을 실시
(문제) 로지스틱 회귀분석과 일반성형 회귀분석 모두 t test로 유의성 검정을 실시한다 (X)
(문제) 로지스틱 회귀모형의 모형검정 방법으로 알맞은 것은? (답) 카이제곱 검정
13. KNN알고리즘
①새로운 데이터가 들어왔을 때 기존 데이터 사이의 거리를 측정해서 이웃을 뽑기 때문에 게으른모델, 또는 사례기반 학습이라 한다
②단점으로는 데이터의 지역구조에 민감하다는 것이다
(문제) KNN은 분류기준이 명확하지 않으면 사용하기 어렵다 (X)
→ 사례기반학습을 하기 때문에 분류기준 명확성과는 관계가 없다
ADsP 요약 공유
ADsP 요약 PDF입니다
[ADsP 정리3] ADsP 요약 공유(ADsP 2과목 요약 공유) (tistory.com)
[ADsP 정리3] ADsP 요약 공유(ADsP 2과목 요약 공유)
[ADsP 정리2] ADSP 요약 공유(ADSP 1과목 요약 공유) (tistory.com) [ADsP 정리2] ADSP 요약 공유(ADSP 1과목 요약 공유) [ADsP 정리1] ADSP 요약 공유(ADSP 1과목 요약 공유) (tistory.com) [ADsP 정리1] ADSP 요약 공유(ADSP 1
rud-study.tistory.com

'자격증 공부 > ADsP(데이터분석준전문가)' 카테고리의 다른 글
| [ADsP] ADsP 시험 합격 후기/ADsP 독학/ADsP 공부법 (77) | 2023.11.19 |
|---|---|
| [ADsP 요약] ADsP 요약 공유(ADsP 3과목 요약 공유2) (58) | 2023.11.05 |
| [ADsP 요약] ADsP 요약 공유(ADsP 2과목 요약 공유) (57) | 2023.10.30 |
| [ADsP 요약] ADSP 요약 공유(ADSP 1과목 요약 공유) (42) | 2023.10.29 |
| [ADsP 요약] ADSP 요약 공유(ADSP 1과목 요약 공유) (39) | 2023.10.29 |