[ADP] 4장 데이터 분석 - 비정형 데이터 마이닝, 텍스트 마이닝

Notice

Recent Posts

Recent Comments

Link

10-06 07:28

« 2024/10 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Byeol Lo

[ADP] 4장 데이터 분석 - 비정형 데이터 마이닝, 텍스트 마이닝 본문

AI/ADP

[ADP] 4장 데이터 분석 - 비정형 데이터 마이닝, 텍스트 마이닝

알 수 없는 사용자 2024. 8. 6. 16:12

분석하고자 하는 데이터가 텍스트인 경우에 사용할 수 있는 분석 기법으로, 텍스트 간의 관계나 패턴 등을 발굴하는 과정들을 말한다. 다양한 포맷이 분석 대상이 될 수 있고, 최근에는 API등을 통해 읽어들여서 분석을 진행한다.

텍스트 마이닝의 기

문서 요약(Summarization)
문서 분류(Classification)
문서 군집(Clustering)
특성 추출(Feature Extraction)

텍스트 마이닝 기본 프로세스

데이터 수집
1. 보통 clawling, API(query)를 통해 데이터를 가지고 올 수 있으며, 읽어온 대부분의 데이터는 HTML의 형태로 되어 있거나 어떠한 format의 문장 형태로 되어 있다.
데이터 전처리: 문장부호, 의미 없는 숫자, 단어를 제거하여 Corpus(말뭉치, Data Cleansing, Integration, Trasformation 등의 과정을 거친 구조화된 데이터를 말함) 를 만듦
1. Text Cleansing: HTML 태그, 특수 문자, 구두점, 공백 제거
2. Tokenization: 텍스트를 단어, 문장, 다른 단위로 분리
3. Normalization: 모든 텍스트를 소문자로 변환, 스톱워드(Stopwords) 제거, Lemmatization(표제어 추출) 혹은 형태소 분석(Stemming) 수행
  - Stemming: 단어의 접미사나 접두사를 제거해서 기본 형태인 어근(root)를 추출하는 과정, 보통 규칙 기반의 단어 변환이 이루어짐. 의미 왜곡이나 정확성 문제가 발생
    ex. running, runner, runs ⇒ run
    - Porter Stemmer
    - Lancaster Stemmer
    - Snowball Stemmer
    - ...
  - Lemmatization: 단어의 원형을 정확하게 추출해 의미를 유지하는 것. 품사까지 고려하기 때문에 Stemming 보다 조금 더 정확할 수 있다. 하지만 속도가 stemming 보다는 조금 더디다.
    ex. better ⇒ good
    - WordNet Lemmatizer
    - Morphological Analysis
데이터 변환
1. Feature Extraction
  - Term Frequency(TF): 단어의 빈도 계산
    $TF (t, d) = \frac{# of times term t appears in document d}{Total # of terms in document d}$
  - Inverse Document Frequency(IDF): 단어가 전체 문서 집합에서 얼마나 중요한지 측정
    $IDF(t, D) = log (\frac{Total # of documents in D}{# of documents containing term t})$
  - TF-IDF(Term Frequency-Inverse Document Frequency): 단어의 중요도를 계산
    $TF-IDF(t, d, D) = TF(t, d) \times IDF(t, D)$
2. Vectorization, NLP에서 다루기에 다른 포스트에서 더 자세히 다루겠다.
  - 단어 임베딩 (Word Embeddings): Word2Vec, GloVe, FastText 등으로 단어를 벡터로 변환
  - 문서 임베딩 (Document Embeddings): Doc2Vec, BERT 등으로 문서 전체를 벡터로 변환
탐색적 데이터 분석(Exploratory Data Analysis, EDA)
1. 빈도 분석(Frequency Analysis)
2. Word Cloud를 이용한 시각화
3. LDA(Latent Dirichlet Allocation): 문서의 주요 주제를 추출
텍스트 분석
1. Association Analysis
2. Semantic Analysis
3. ...

저작자표시

'AI > ADP' 카테고리의 다른 글

[ADP] 4장 데이터 분석 - 연관 분석 (0)	2024.08.06
[ADP] 4장 데이터 분석 - 군집 분석 (0)	2024.08.06
[ADP] 4장 데이터 분석 - Model Evaluation (0)	2024.08.06
[ADP] 4장 데이터 분석 - Ensemble (0)	2024.08.03
[ADP] 4장 데이터 분석 - Decision Tree (0)	2024.08.03

'AI/ADP' Related Articles

Comments

Byeol Lo

[ADP] 4장 데이터 분석 - 비정형 데이터 마이닝, 텍스트 마이닝 본문

[ADP] 4장 데이터 분석 - 비정형 데이터 마이닝, 텍스트 마이닝

텍스트 마이닝의 기

텍스트 마이닝 기본 프로세스

'AI > ADP' 카테고리의 다른 글

티스토리툴바