Notice
Recent Posts
Recent Comments
10-06 07:28
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Archives
Today
Total
관리 메뉴

Byeol Lo

[ADP] 4장 데이터 분석 - 비정형 데이터 마이닝, 텍스트 마이닝 본문

AI/ADP

[ADP] 4장 데이터 분석 - 비정형 데이터 마이닝, 텍스트 마이닝

알 수 없는 사용자 2024. 8. 6. 16:12

 

 

 분석하고자 하는 데이터가 텍스트인 경우에 사용할 수 있는 분석 기법으로, 텍스트 간의 관계나 패턴 등을 발굴하는 과정들을 말한다. 다양한 포맷이 분석 대상이 될 수 있고, 최근에는 API등을 통해 읽어들여서 분석을 진행한다.

 

텍스트 마이닝의 기

  1. 문서 요약(Summarization)
  2. 문서 분류(Classification)
  3. 문서 군집(Clustering)
  4. 특성 추출(Feature Extraction)

 

텍스트 마이닝 기본 프로세스

  1. 데이터 수집
    1. 보통 clawling, API(query)를 통해 데이터를 가지고 올 수 있으며, 읽어온 대부분의 데이터는 HTML의 형태로 되어 있거나 어떠한 format의 문장 형태로 되어 있다.
  2. 데이터 전처리: 문장부호, 의미 없는 숫자, 단어를 제거하여 Corpus(말뭉치, Data Cleansing, Integration, Trasformation 등의 과정을 거친 구조화된 데이터를 말함) 를 만듦
    1. Text Cleansing: HTML 태그, 특수 문자, 구두점, 공백 제거
    2. Tokenization: 텍스트를 단어, 문장, 다른 단위로 분리
    3. Normalization: 모든 텍스트를 소문자로 변환, 스톱워드(Stopwords) 제거, Lemmatization(표제어 추출) 혹은 형태소 분석(Stemming) 수행
      • Stemming: 단어의 접미사나 접두사를 제거해서 기본 형태인 어근(root)를 추출하는 과정, 보통 규칙 기반의 단어 변환이 이루어짐. 의미 왜곡이나 정확성 문제가 발생
        ex. running, runner, runs ⇒ run
        • Porter Stemmer
        • Lancaster Stemmer
        • Snowball Stemmer
        • ...
      • Lemmatization: 단어의 원형을 정확하게 추출해 의미를 유지하는 것. 품사까지 고려하기 때문에 Stemming 보다 조금 더 정확할 수 있다. 하지만 속도가 stemming 보다는 조금 더디다.
        ex. better ⇒ good
        • WordNet Lemmatizer
        • Morphological Analysis
  3. 데이터 변환
    1. Feature Extraction
      • Term Frequency(TF): 단어의 빈도 계산
        $TF (t, d) = \frac{# of times term t appears in document d}{Total # of terms in document d}$
      • Inverse Document Frequency(IDF): 단어가 전체 문서 집합에서 얼마나 중요한지 측정
        $IDF(t, D) = log (\frac{Total # of documents in D}{# of documents containing term t})$
      • TF-IDF(Term Frequency-Inverse Document Frequency): 단어의 중요도를 계산
        $TF-IDF(t, d, D) = TF(t, d) \times IDF(t, D)$
    2. Vectorization, NLP에서 다루기에 다른 포스트에서 더 자세히 다루겠다.
      • 단어 임베딩 (Word Embeddings): Word2Vec, GloVe, FastText 등으로 단어를 벡터로 변환
      • 문서 임베딩 (Document Embeddings): Doc2Vec, BERT 등으로 문서 전체를 벡터로 변환
  4. 탐색적 데이터 분석(Exploratory Data Analysis, EDA)
    1. 빈도 분석(Frequency Analysis)
    2. Word Cloud를 이용한 시각화
    3. LDA(Latent Dirichlet Allocation): 문서의 주요 주제를 추출
  5. 텍스트 분석
    1. Association Analysis
    2. Semantic Analysis
    3. ...

 

Comments