'AI/ADP' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

10-06 04:30

« 2024/10 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록AI/ADP (35)

Byeol Lo

[ADP] 4장 데이터 분석 - 비정형 데이터 마이닝, 텍스트 마이닝

분석하고자 하는 데이터가 텍스트인 경우에 사용할 수 있는 분석 기법으로, 텍스트 간의 관계나 패턴 등을 발굴하는 과정들을 말한다. 다양한 포맷이 분석 대상이 될 수 있고, 최근에는 API등을 통해 읽어들여서 분석을 진행한다. 텍스트 마이닝의 기문서 요약(Summarization)문서 분류(Classification)문서 군집(Clustering)특성 추출(Feature Extraction) 텍스트 마이닝 기본 프로세스데이터 수집보통 clawling, API(query)를 통해 데이터를 가지고 올 수 있으며, 읽어온 대부분의 데이터는 HTML의 형태로 되어 있거나 어떠한 format의 문장 형태로 되어 있다.데이터 전처리: 문장부호, 의미 없는 숫자, 단어를 제거하여 Corpus(말뭉치, Data Clea..

AI/ADP 2024. 8. 6. 16:12

[ADP] 4장 데이터 분석 - 연관 분석

항목들 간에 조건-결과로 표현되는 패턴들을 발견하는 것을 연관 분석이라고 하며, 장바구니(market basket, 더 넓은 의미로 transaction이라고 해도 됨) 분석도 이러한 분석 기술을 이용한게 되겠다. 이런 분석을 잘한다면 마케팅에서 교차 판매나 다른 이벤트 등을 실행할 수 있을 것이다.규칙에 있어서 기본 세가지 유형이 있다.Useful: 유용한 정보와 실행 가능한 통찰을 제공하는 규칙Trivial: 어떤 분야에 익숙한 사람이라면 이미 알고 있는 규칙Inexplicable: 새로운 정보이지만 고객 행동에 대한 명확한 설명이 없는 규칙이런 규칙들을 찾아내서 다음 측정 지표를 써서 분석을 한다. 측정지표Support(지지도): 전체 transaction 중에 A item 이 발생할 비율 확률$S..

AI/ADP 2024. 8. 6. 15:34

[ADP] 4장 데이터 분석 - 군집 분석

unsupervised learning의 대표적인 모델이며, 데이터 간의 유사도를 통해 군집을 형성한다. 이상값 탐지에도 이용하기도 하며, 종류로는계층적 군집분리(partitioning) 군집밀도-기반군집모형-기반군집격자-기반군집커널-기반군집SOM(Self-Organizing Maps)등이 있음. 여기서는 계층적 군집, k-means 군집, Mixture Dsitribution Clustering, SOM 만을 다루는 듯하다. 계층적 군집(Hierarchical Clustering) 가장 유사한 개체를 묶어나가는 과정을 반복한다. 시각화로 dendrogram 이 보통 그려지며, 유사성을 어떤 식을 쓸지에 따라 부르는 명칭이 다르고, 작은 군집으로 출발할지(agglomerative, bottom-up 방식..

AI/ADP 2024. 8. 6. 13:25

[ADP] 4장 데이터 분석 - Model Evaluation

모델은 전부 학습 데이터들을 가지며 학습 데이터만을 보고 실제로 실생활에 적용되어진다. 하지만 그 전에 test나 validation을 거쳐서 모델들이 정말 실생활에 적용해도 될지 등을 검증하는 것이 있어야 할 것이다. 여기서 훈련에 쓰이는 데이터를 training data, 그 다음 모델의 성과를 검증하기 위해서 test data를 두게 된다(validation data는 보통 hyper parameter이 적절히 되었는지 봄). 만약에 이와 같은 과정을 안거친다면 우리의 training set에서만 굉장히 좋은 모델인 overfitting 문제가 발생하게 된다. 따라서 이를 방지하기 위한 다른 다양한 기법들을 보자. Hold out 홀드 아웃 방법은 일반적으로 전체 데이터 중 훈련/검증 데이터 두 분..

AI/ADP 2024. 8. 6. 12:32

[ADP] 4장 데이터 분석 - Ensemble

앙상블은 그냥 여러 분류기(classifier)들의 결과를 합쳐서 정확도를 높이는 기법인데, 우선 데이터들을 여러 개의 훈련용 데이터 집합을 만들어서 각각의 데이터 집합에서 하나의 분류기를 만들어 앙상블하는 기법이다. 대표적인 방법에는 배깅(bagging)과 부스팅(boosting), 스태킹(Stacking) 이 있다. 배깅(Bagging, Bootstrap Aggregating) 원 데이터 집합에서 크기가 같은 여러 개의 "단순 임의 복원추출"을 통해 얻어진 각 sample(bootstrap sample)에 대해 분류기(classifier)를 생성한 후에 그 결과를 합치는 기법이다. R의 adabag를 사용해서 bagging을 할 수 있다. 부스팅(Boosting) 배깅이랑 비슷하지만 bootstrap..

AI/ADP 2024. 8. 3. 23:02

[ADP] 4장 데이터 분석 - Decision Tree

의사결정나무는 인지 아닌지로 계속 분류하는 작업 밖에 없다. 인지 아닌지의 기능이 부여되는 곳이 node이며, 이 노드에서 다시 노드로 가는 구조로 되어 있다. 용어 정리부터 하자.root node: 뿌리 마디라고도 하며, 최상위에 있는 노드이다parent node: 특정 노드와 인접한 상위 노드를 말하며 하나 뿐일 것이다child node: 특정 노드의 하위 노드를 말하며 2개 이상의 노드가 있을 수 있다terminal node: 최하위 노드를 말하며 더 이상 분기되지 않는 노드다split: 가지 분할이며, child node를 만들기 때 가지 분할을 한다고 하며, 그러한 과정을 말한다pruning: 가지치기 라고도 하며 생성된 가지를 잘라내서 모형을 단순화하는 과정을 말한다대략 보면 알겠지만, Dec..

AI/ADP 2024. 8. 3. 22:19

[ADP] 4장 데이터 분석 - 신경망 모형

원래는 Deep Learning 과목에서 더 자세히 다룰 예정이지만, 여기서도 간단히 보겠다. 신경망은 뇌신경계를 모방하여 분류 혹은 예측을 하도록 만들어진 모형인데, 우리 neuron(신경 세포) 에서는 시냅스(synapse)를 통해 신호를 전달 받는 과정에서 신호의 강도가 threshold 를 초과할 때 다른 neuron으로 그 신호가 전달되며, 이를 모방하여 만든 것이 인공신경망이며, input은 시냅스를, 활성 함수를 인공 신경망의 출력을 맡는다. 이론은 다른 포스트로 정리하겠다. 입력층이 직접 출력층과 연결되는 것을 단층 신경망(single-layer neural network)라고 부르며, 보통 우리가 전에 봤던 logistic regression, linear regression 또한 이런 ..

AI/ADP 2024. 8. 3. 15:20

[ADP] 4장 데이터 분석 - 분류 분석

https://seonghun120614.tistory.com/323 Logistic Regression for Single-class틀린 것이 있으면 지적 꼭 부탁드립니다. 회귀 분석을 진행하다 보면 모든 것들이 실수 값을 가지는 것이 아닌 인지 아닌지의 확률로 결과가 나왔으면 좋겠던 순간이 있을 것이다. 이때 Logisiticseonghun120614.tistory.com이론적인 내용은 위를 보길 바란다. 로지스틱 회귀가 분류목적으로 사용될 때, 시그모이드가 threshold(기준값)이 정해져서 해당 threshold보다 크면 Y=1인 집단으로, 아니면 Y=0으로 분류하게 된다. 보통 threshold의 결정은 손실함수를 적용한다거나 accuracy, sensitivity, specificity 를..

AI/ADP 2024. 8. 3. 14:36

[ADP] 4장 데이터 분석 - 시계열 분석

2024.08.01 - [Math/Applied Statistics] - Time Series Analysis Time Series Analysis시간의 흐름에 따라서 관측된 데이터를 시계열 자료 라고 하며, 시계열 분석을 하기 위해서는 정상성(Stationary)를 만족해야 한다. 여기서는 기본적으로 quantitative 하게 과학적이게 분석을 하기 위seonghun120614.tistory.com R을 이용한 시계열 분석library(datasets)plot(Nile)그림으로 보면 나일강의 연간 유입량 데이터는 비계절성을 띈다. 평균이 변화하기 때문에 정상성을 만족한다고 보기 힘들다. plot(ldeaths) 매년 일정 주기별로 평균이 비슷하며, 사진으로만 봤을 때는 정상성을 만족한다고 볼 수 있다..

AI/ADP 2024. 8. 2. 13:13

[ADP] 4장 데이터 분석 - 다변량 분석

상관분석두 변수간의 관계를 알아보기 위해 해야하는 것이 상관분석이다. 두 변수의 상관관계를 나타내는 지표는 다음과 같다. 피어슨의 상관계수$$\rho = Corr (X, Y) = \frac{Cov(X, Y)}{\sqrt{Var(X)Var(Y)}}$$이때 -1 ≤ p ≤ 1 이며, X, Y가 독립이면 0의 값을 가진다. 이 모수의 피어슨의 상관계수를 추정하기 위해, 표본 상관계수r 을 사용한다.$$r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})} \sqrt{\sum_{i=1}^n (y_i - \bar{y})}}$$corr(data, type = "pearson") 스피어만의 상관계수 피어슨의..

AI/ADP 2024. 8. 1. 14:37

Prev 1 2 3 4 Next

목록AI/ADP (35)

Byeol Lo

티스토리툴바