본문 바로가기

AI/이론

기계학습과 데이터마이닝

‘데이터 마이닝’ – 다양한 관점에서 데이터를 분석해 의미 도출

 

‘데이터 마이닝’은 보유한 데이터를 다양한 관점에서 분석하고 그 결과를 유용한 정보로 조합하는 일을 가리킨다.

방대한 데이터 속에 숨어 있던 패턴과 상관성을 통계적 수법들로 식별해 내 가치를 부여한다. 데이터 마이닝은 숫자가 아닌 데이터도 처리한다는 점에서 통계처리와 구분된다. 예를 들면 프로축구 선수들의 패스, 어시스트, 골 등 숫자로 표현되는 데이터 외에도 게임 중 행하는 동작이나 역할들까지 선수의 가치로 환산해서 연봉 책정의 기준으로 삼는다. 데이터 마이닝이 관심을 끄는 이유는 방대한 양의 데이터 속에 감춰진 정보나 지식을 잘 도출해 내 널리 활용할 수 있기 때문이다. 이렇게 얻은 지식은 위험 관리, 비즈니스 관리, 생산 관리, 시장 분석, 시스템 설계 및 연구개발 등에 활용할 수 있다.

‘데이터 마이닝’ 기법에는 일반적으로 연관(association), 회귀(regression) 및 분류(classification)라는 세 가지 유형이 있다.

 

연관 분석은 주어진 데이터 세트에서 자주 발생하는 속성 값들을 연결해 주는 연관 규칙을 발견하는 일이다. 예를 들면 고객이 구매한 쇼핑 카트 내의 개별 상품간의 상관관계를 식별하는 경우에 사용된다.

 

회귀 분석은 독립 변수 분석을 통해 종속 변수가 무엇인지 밝혀내는 일에 사용된다. 예를 들면 어떤 상품의 예상판매실적을 주요 고객들의 소득 수준과 상품의 판매가격과의 상관관계로부터 예측하는 방법이다.

 

분류란 개체들을 여러 등급으로 나누는 모델이다. 의사결정 트리, 수학공식 또는 if-then 규칙 등이 사용된다. ‘데이터 마이닝’의 품질은 입력된 데이터의 품질에 따른다. 데이터 분류가 잘못되거나 부정확한 데이터는 그릇된 예측을 낳는다. ‘데이터 마이닝’은 이전에 발생했던 데이터의 추세에 의존한다는 점에서 응용에 한계가 있다. 지나간 사건을 기반으로 하므로 미래에 벌어질 새로운 추세를 진단하기엔 역부족이다.

 

 

 

 

데이터 마이닝 기법

 

'AI > 이론' 카테고리의 다른 글

[ML] CNN  (0) 2021.04.06
dropout 적용코드 살펴보기  (0) 2021.02.19
인공지능, 기계학습, 데이터 마이닝  (0) 2021.02.18
[ML] Random forest regression  (0) 2021.02.12
[ML] 머신러닝(기계학습) 분류  (0) 2021.02.11