의사결정나무 예제 r

데이터 탐색 단계의 다음 단계는 의사 결정 트리를 분할하는 데 가장 적합한 변수를 예측하는 것입니다. 이러한 이유로 21 개의 변수 각각에 대한 분할을 나타내는 그래프를 플로팅했으며 출력은 다음과 같습니다 ctree (수식, data=) 생성 된 트리 유형은 결과 변수 (명목 계수, 정렬 된 요인, 숫자 등)에 따라 달라집니다. 트리 성장은 통계 적 중지 규칙을 기반으로하므로 가지 치기가 필요하지 않습니다. 그래서, 여기에서 우리는 `속도 제한`변수가 가장 높은 정보 이득을 가지고 있음을 볼 수 있습니다. 따라서 이 데이터 집합에 대한 최종 결정 트리는 `속도 제한` 변수를 사용하여 빌드됩니다. 업계 수준의 문제를 해결하기 위한 기계 학습 알고리즘의 구현이 증가함에 따라 보다 복잡하고 반복적인 알고리즘에 대한 요구가 증가하고 있습니다. 의사 결정 트리 알고리즘은 회귀 및 분류 문제를 모두 해결하는 데 사용되는 알고리즘 중 하나입니다. 이제 Decision Tree 모델을 테스트하기 위해 모델에 설정된 테스트 데이터를 다음과 같이 적용할 것입니다. 범주형 및 연속 입력 및 출력 변수 모두에 대해 작동합니다. 위의 예에서 위의 예제에서는 출력이 요인/범주인 경우 분류 트리(예)에 대해 설명했습니다. 트리는 트리의 각 리프의 출력이 더 이상 범주가 아니라 숫자인 회귀에도 사용할 수 있습니다. 회귀 트리라고 합니다. 정보 게인은 의사 결정 트리의 각 노드에서 데이터를 가장 잘 분할하는 변수를 선택하는 데 사용되기 때문에 중요합니다.

IG가 가장 높은 변수는 루트 노드에서 데이터를 분할하는 데 사용됩니다. 의사 결정 트리를 사용하는 이유를 시작하기 전에 기본 을 이해하기 위해 거쳐야하는 기계 학습 블로그 목록이 있습니다: 의사 결정 트리에서 중요한 용어를 식별하고 위의 이미지를 살펴 보겠습니다. 트리 알고리즘은 의사 결정 트리를 분할하기 위해 가장 높은 정보 이득을 가진 변수를 선택합니다.