콘텐츠 본문
논문 국내 국내전문학술지(KCI급) 의사결정나무의 최적 분할 및 가지치기 옵션
- 학술지 구분 국내전문학술지(KCI급)
- 게재년월 2019-05
- 저자명 김기태
- 학술지명 예술인문사회 융합 멀티미디어 논문지
- 발행처명 사단법인 인문사회과학기술융합학회
- 발행국가 국내
- 논문언어 한국어
- 전체저자수 2
논문 초록 (Abstract)
의사결정나무 분류는 변수 즉 속성(Attribute)을 노드로 하여 나무를 형성해 가면서 데이터의 패턴과 규칙을 찾는 방법으로 속성인 노드에서 가지를 뻗어 나가는 분할(Splitting)방법과 속성들의 순서를 정하는 것으로 알고리즘이 구성된다. 또한 과적합을 방지하기 위해 의사결정나무의 크기를 줄이는 가지치기(Pruning)를 수행한다. 분할방법에 따라 의사결정나무의 알고리즘이 CART, CHAID, C5.0으로 나뉘고 가지치기를 하기 위한 다양한 옵션이 존재한다. 의사결정나무 분류 방법은 분할방법과 가지치기의 방식에 따라 성능에 차이가 존재한다. 또한 데이터의 종류에 따라 성능이 달라진다. 우리는 본 논문에서 어떠한 분할방법과 가지치기 옵션이 데이터의 형태에 적합한지를 비교 분석하여 데이터 형태에 따른 최적의 분할방법과 가지치기 옵션을 제시한다.즉, 데이터 및 변수를 크기별로 분류하여 어떠한 분할 알고리즘 및 가지치기가 최적조건인지 분석한다. 또한 불균형 데이터에 대해서도 조사하여 불균형 정도를 네 단계로 구분하여 불균형 정도별로 분할 알고리즘과 가지치기에 대한 분석을 실시하여 최적의 조건을 찾는다.본 연구결과는 어떠한 형태의 데이터가 주어질 때 유형에 따라 어떤 분할방법과 가지치기를 사용하는 것이 가장 적절한지 제공할 수 있어 다양한 문제와 분야에 응용될 수 있는 중요한 자료로 사용될 수 있다.

