10-06 07:28
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- BFS
- Binary Search
- python
- 자바
- zsh
- X.org
- preprocessing
- Entity
- 백준
- Inheritance
- Mac
- OOP
- 리눅스 마스터 1급
- Reference Type
- literal
- External Scheme
- Operator
- selenium
- systemd
- Physical Scheme
- 리눅스
- Class
- dbms
- 리눅스 기초
- Java
- 셀레니움
- Entity Set
- Unity
- Polymolphism
- X윈도우
Archives
- Today
- Total
Byeol Lo
[ADP] 4장 데이터 분석 - 비정형 데이터 마이닝, 텍스트 마이닝 본문
분석하고자 하는 데이터가 텍스트인 경우에 사용할 수 있는 분석 기법으로, 텍스트 간의 관계나 패턴 등을 발굴하는 과정들을 말한다. 다양한 포맷이 분석 대상이 될 수 있고, 최근에는 API등을 통해 읽어들여서 분석을 진행한다.
텍스트 마이닝의 기
- 문서 요약(Summarization)
- 문서 분류(Classification)
- 문서 군집(Clustering)
- 특성 추출(Feature Extraction)
텍스트 마이닝 기본 프로세스
- 데이터 수집
- 보통 clawling, API(query)를 통해 데이터를 가지고 올 수 있으며, 읽어온 대부분의 데이터는 HTML의 형태로 되어 있거나 어떠한 format의 문장 형태로 되어 있다.
- 데이터 전처리: 문장부호, 의미 없는 숫자, 단어를 제거하여 Corpus(말뭉치, Data Cleansing, Integration, Trasformation 등의 과정을 거친 구조화된 데이터를 말함) 를 만듦
- Text Cleansing: HTML 태그, 특수 문자, 구두점, 공백 제거
- Tokenization: 텍스트를 단어, 문장, 다른 단위로 분리
- Normalization: 모든 텍스트를 소문자로 변환, 스톱워드(Stopwords) 제거, Lemmatization(표제어 추출) 혹은 형태소 분석(Stemming) 수행
- Stemming: 단어의 접미사나 접두사를 제거해서 기본 형태인 어근(root)를 추출하는 과정, 보통 규칙 기반의 단어 변환이 이루어짐. 의미 왜곡이나 정확성 문제가 발생
ex. running, runner, runs ⇒ run- Porter Stemmer
- Lancaster Stemmer
- Snowball Stemmer
- ...
- Lemmatization: 단어의 원형을 정확하게 추출해 의미를 유지하는 것. 품사까지 고려하기 때문에 Stemming 보다 조금 더 정확할 수 있다. 하지만 속도가 stemming 보다는 조금 더디다.
ex. better ⇒ good- WordNet Lemmatizer
- Morphological Analysis
- Stemming: 단어의 접미사나 접두사를 제거해서 기본 형태인 어근(root)를 추출하는 과정, 보통 규칙 기반의 단어 변환이 이루어짐. 의미 왜곡이나 정확성 문제가 발생
- 데이터 변환
- Feature Extraction
- Term Frequency(TF): 단어의 빈도 계산
$TF (t, d) = \frac{# of times term t appears in document d}{Total # of terms in document d}$ - Inverse Document Frequency(IDF): 단어가 전체 문서 집합에서 얼마나 중요한지 측정
$IDF(t, D) = log (\frac{Total # of documents in D}{# of documents containing term t})$ - TF-IDF(Term Frequency-Inverse Document Frequency): 단어의 중요도를 계산
$TF-IDF(t, d, D) = TF(t, d) \times IDF(t, D)$
- Term Frequency(TF): 단어의 빈도 계산
- Vectorization, NLP에서 다루기에 다른 포스트에서 더 자세히 다루겠다.
- 단어 임베딩 (Word Embeddings): Word2Vec, GloVe, FastText 등으로 단어를 벡터로 변환
- 문서 임베딩 (Document Embeddings): Doc2Vec, BERT 등으로 문서 전체를 벡터로 변환
- Feature Extraction
- 탐색적 데이터 분석(Exploratory Data Analysis, EDA)
- 빈도 분석(Frequency Analysis)
- Word Cloud를 이용한 시각화
- LDA(Latent Dirichlet Allocation): 문서의 주요 주제를 추출
- 텍스트 분석
- Association Analysis
- Semantic Analysis
- ...
'AI > ADP' 카테고리의 다른 글
[ADP] 4장 데이터 분석 - 연관 분석 (0) | 2024.08.06 |
---|---|
[ADP] 4장 데이터 분석 - 군집 분석 (0) | 2024.08.06 |
[ADP] 4장 데이터 분석 - Model Evaluation (0) | 2024.08.06 |
[ADP] 4장 데이터 분석 - Ensemble (0) | 2024.08.03 |
[ADP] 4장 데이터 분석 - Decision Tree (0) | 2024.08.03 |
Comments