JANGUN


인공지능 개론


저자 : Michael Negnevitsky
번역 : 김용혁



목차

01. 지식기반 지능형 시스템 개론
02. 규칙기반 전문가 시스템
03. 규칙기반 전문가 시스템에서 불확실성 다루기
04. 퍼지 전문가 시스템
05. 프레임기반 전문가 시스템
06. 인공 신경망
07. 진화 연산
08. 하이브리드 지능 시스템
09. 지식 공학과 데이터 마이닝


Chapter 01. 지식기반 지능형 시스템 개론

지능(Intelligence)
1. 인간의 지능은 무언가를 이해하고 배우는 능력이다.
2. 지능은 본능적 혹은 자동적으로 무언가를 하는 대신 생각하고 이해하는 능력이다.
3. 생각(thinking)이란 문제를 고려하거나 아이디어를 만들기 위해 두뇌를 사용하는 행위이다.
4. 지능이란 문제를 풀고 결정을 내리기 위해 배우고 이해하는 능력이다.



Chapter 02. 규칙기반 전문가 시스템

지식은 어떤 주제나 분야에 대해 이론적으로 혹은 실제로 이해하는 것
또 현재 알려진 사실들의 모음이기도 하며, 권력이 되기도 한다.
우리는 지식을 소유한 사람을 가리켜 전문가(expert)라 한다.

지식 표현 기법 :
IF <전건1>
AND <전건2>
OR <전건3>

THEN <후건1>
<후건2>


규칙기반 전문가 시스템의 장단점
- 자연스러운 지식 표현
- 통일된 구조
- 지식과 과정의 분리
- 불완전하고 불확실한 지식 다루기
- 규칙들 간의 불분명한 관계
- 비효율적인 탐색 전략
- 학습할 수 없음

메타지식 : 지식에 관한 지식으로 정의
- 메타지식은 전문가 시스템 내에 있는 분야 지식을 사용하고 제어하는 데 필요한 지식이다.

전문가 시스템 개발팀의 주요 구성원

- 주제 전문가(domain expert) : 특정 분야나 주제에 대한 지식이 풍부하고, 관련 문제를 푸는 데 능숙한 사람으로 주제에 대해 최고의 전문 지식을 갖추고 있어야 한다.
- 지식 공학자(knowledge engineer) : 전문가 시스템을 설계하고, 만들고, 테스트할 수 있는 사람으로 전문가 시스템을 만들기 위해 어떤 일을 해야 하는지 결정한다
- 프로그래머 (programmer) : 실제 프로그래밍을 책임지며 지식을 컴퓨터가 이해할 수 있는 용어로 기술하는 사람이다.
- 프로젝트 관리자 (project manager) : 전문가 시스템 개발팀의 리더로서, 프로젝트 진행을 관리 최종 사용자 (end-user) : 개발한 전문가 시스템을 사용하는 사람

규칙기반 전문가 시스템의 구조

- 데이터베이스(database) : 기반지식에 저장된 규칙의 IF와 비교할 때 사용하는 사실(face)들의 집합
- 추론엔진 (inference engine) : 전문가 시스템이 해를 구할 수 있도록 추론 역할을 담당하며, 기반지식에 주어진 규칙들을 데이터베이스에 있는 사실과 연관한다.
- 해설설비(explanation facilities) : 사용자에게 전문가 시스템이 어떻게 특정 결론에 이르렀는지, 왜 특정 사실이 필요한 지 설명한다.
- 사용자 인터페이스 : 문제의 답을 찾고 싶어 하는 사용자와 전문가 시스템 간의 통신 수단이다.
- 전문가 시스템은 좁고 전문화 된 분야에서 전문가 수준으로 동작하도록 설계된다.
- 전통적인 프로그램은 알고리즘, 즉 잘 정의된 단계적 연상을 이용하여 데이터를 처리한다. 알고리즘은 항상 같은 순서로 같은 연산을 수행하며 늘 정확한 해를 제공한다.
- 전문가 시스템은 정확하지 않은 추론을 허용하고 불완전하고 불확실하며 모호한 데이터를 다룰 수 있다.
- 순방향 연결 (data-driven) : 알려진 데이터에서 추론을 시작하여 순방향으로 추론을 진행해 나간다. 순방향 연결은 정보를 모으고 난 후, 이를 바탕으로 추론 가능한 무언가를 추론한다.
- 역방향 연결 (goal-driven) : 전문가 시스템이 목표(가정해)를 정하고, 추론 엔진은 이를 증명하기 위해 증거 찾기를 시도한다.
- 충돌 해법 : 추론 엔진은 규칙의 IF (조건) 부분을 데이터베이스에 있는 데이터와 비교하여 조건을 만족하면 그 규칙을 점화 상태로 설정한다. 이때 두 개 이상의 규칙이 점화되었을 때, 어느 규칙을 점화할 지 선택하는 방법
→ 규칙의 우선 순위를 비교한다.
→ 가장 특수한 규칙을 점화한다.
→ 최근에 입력된 데이터를 사용하여 규칙을 점화한다.



Chapter 03. 규칙기반 전문가 시스템에서 불확실성 다루기

전문가(사람)가 사용하는 정보의 공통적인 특징 중 하나는 불완전성이다. 정보란 불완전할 수 있고, 모순되기도 하며, 불확실할 수도 있다.
불확실성(uncertainty)이란 확실하고 믿을 만한 결론에 도달하기 위한 정확한 정보의 부족으로 정의
전문가 시스템에서 지식이 불확실해지는 이유는 무엇일까?
1. 상관관계가 취약한 함축
2. 부정확한 언어
3. 알려지지 않은 데이터
4. 여러 전문가의 관점 통합


기본 확률 이론


조건부 확률(conditional probability) P(A|B)
: 사건 A와 B가 상호 배타적이지 않고, 조건부로 다른 사건의 발생에 영향을 줄 때, 사건 B가 발생했을 때 사건 A가 발생할 확률


사건 A가 오직 상호 배타적인 두 사건 (즉, 사건 B와 B가 아닌 사건)에만 종속적으로 발생한다면,



Chapter 04. 퍼지 전문가 시스템

퍼지 논리는 영어 단어 퍼지(fuzzy)가 뜻하는 것처럼 모호한 논리가 아니라, 모호한 대상을 다루는 논리다.
- 퍼지 논리는 퍼지 집합, 즉 모호한 정도를 조절할 수 있는 집합에 대한 이론이다. (1930, 폴란드의 Jan Lukasiewicz)
- 퍼지 논리는 고전적인 이진 논리처럼 소속을 분명히 하는 것이 아니라, 어느 정도 속하는 지를 바탕으로 지식을 표현하는 일련의 수학 원리.

크리스프 집합론은 참과 거짓 두 가지 값만 쓰는 논리를 따른다.
- 모호한 개념을 표현할 수 없기 때문에 역설에 대한 해답을 제시하지 못한다.
- 퍼지 집합론의 기본 발상은 원소가 퍼지 집합에서 어느 정도 속한다는 것이다.
- 따라서 명제는 참 또는 거짓이 아니라 어느 정도는 부분적으로 참(이거나 부분적으로 거짓)일 수 있다.
- 정도는 보통 [0, 1]의 범위의 실수값으로 표현한다.


언어 변수 헤지(hedge) : 퍼지 집합 한정사 ex) 매우, 꽤, 몹시, 거의, 대개, ~일 것이다, 몇몇


퍼지 추론 : 담다니형 추론
1단계 : 퍼지화
2단계 : 규칙 평가
3단계 : 출력으로 나온 규칙을 통합
4단계 : 역퍼지화
(퍼지성은 규칙을 평가하는 데 도움이 되지만, 최종 출력은 분명한 숫자이어야 한다.
역퍼지화 과정에서 입력은 통합된 출력 퍼지 집합이고, 출력은 숫자 하나여야 한다.)
※ 무게 중심(CoG, center of gravity)


퍼지 추론 : 맘다니 방법과 스노게형 추론 (빠른 추론 시간)
cf) 맘다니 방법은 전문가의 지식을 얻는 데 많이 쓰이고, 스게노 방법은 제어문제,, 특히 동적 비선형 시스템에서 매력적이다



퍼지 전문가 시스템을 개발하는 전형적인 절차
1. 문제를 명확히 하고 언어 변수를 정의한다
2. 퍼지 집합을 결정한다
3. 퍼지 규칙을 구성하고 도출한다
4. 퍼지 집합, 퍼지 규칙, 퍼지 추론을 수행하는 절차를 퍼지 시스템에 부호화해 넣는다
5. 시스템을 평가하고 조정한다.
- 모델의 입출력 변수를 재검토 하고, 필요하면 범위를 재조정한다. 특히 변수 단위에 주의한다.
- 퍼지 집합을 재검토하고, 필요하면 논의 영역에 집합을 추가한다.
- 인접한 집합들이 충분히 겹치게 한다.
- 규칙을 재검토하고, 필요하면 기반 규칙에 새로운 규칙을 추가한다.
- 기반 규칙을 검토하고, 헤지 규칙을 작성해서 시스템의 이상한 동작을 잡아낼 가능성이 있는지 알아본다.
- 규칙 실행 가중치를 바꾼다.
- 퍼지 집합의 모양을 바꾼다



Chapter 05. 프레임기반 전문가 시스템

프레임이란 특정 객체 또는 개념에 관한 전형적인 지식으로 이루어진 데이터 구조체이다. (1975, Minsky)
- 프로임이란 전문가 시스템을 위해 객체 지향 프로그래밍을 응요한 것이다.
- 분석, 설계, 구현의 기반이 되는 객체를 이용하여 프로그래밍 방법을 객체 지향 프로그래밍이라 한다.
- 객체 지향 프로그래밍에서는 객체를 일종의 개념, 추상화로 정의하거나 문제에 대한 경계나 의미를 갖는 어떤 것으로 정의한다.

규칙기반 전문가 시스템과 프레임기반 전문가 시스템 간의 주요 차이는 시스템이 지식을 어떻게 받아들이고 나타내는가에 있다.
- 규칙기반 시스템에서 규칙 집합이란, 문제를 해결하기 위해 사용하는 특정 분야의 지식이다.
- 각 규칙은 문제의 해결을 돕는 보편적인 특성을 잡아내고, 새로운 규칙은 새로운 지식에 추가되어 시스템을 좀 더 영리하게 만든다. 규칙을 바꾸거나 추가, 삭제를 통해 규칙기반 시스템을 쉽게 바꿀 수 있다.
- 프레임기반 시스템에서는 문제를 다른 방식으로 접근한다. 즉, 지식 구조의 계층 구조를 먼저 결정한다.
- 클래스와 클래스의 속성을 정하고, 각 프레임 사이의 계층 구조 관계를 결정한다. 프레임기반 시스템의 구조는 문제에 대한 자연스러운 설명을 제공할 뿐만 아니라 메소드와 데몬을 통해 프레임의 동작을 추가할 수 있다.
1. 문제를 규정하고, 시스템의 범위를 정의한다.
2. 클래스와 클래스의 속성을 정한다.
3. 인스턴스를 정의한다.
4. 디스플레이(인터페이스 창)를 정의한다.
5. 메소드와 데몬을 정의한다. (메소드 : 속성과 관련되 프로시저 / 데몬 : IF-THEN 구조로, IF문의 속성이 변할 때마다 실행)
6. 규칙을 정한다.
7. 시스템을 만들어 평가하고, 확장한다.



Chapter 06. 인공 신경망

기계 학습이란 무엇인가?
- 일반적으로 기계 학습은 컴퓨터가 경험, 예, 유추를 통해 학습할 수 있게 하는 적응 메커니즘과 관련이 있다.
- 학습 능력은 시간이 흐르면서 지능형 시스템의 성능을 개선한다. 기계 학습 메커니즘은 적응형 시스템의 기초를 형성한다.
- 기계 학습에서 가장 많이 알려진 접근법은 인공 신경망과 유전 알고리즘이다.

신경망이란 무엇인가?
- 신경망은 인간의 뇌를 기반으로 한 추론 모델로 정의할 수 있다. 인간의 뇌는 조밀하게 서로 연결된 신경 세포의 집합으로 이루어져 있는데, 이 신경 세포는 뉴런이라는 기본적인 정보 처리 단위다. 인간의 뇌는 100억개의 뉴런과 각 뉴런을 연결하는 6조 개의 연결 부위, 즉 시냅스의 결합체다.
- 인공신경망(ANN)에는 ‘학습’ 능력이 있다. 즉, 성능을 개선하는 데 경험을 활용한다. 표본이 충분히 주어지면 아직 발견하지 못한 사실을 일반화할 수도 있고, 전문가가 인식해내지 못한 패턴을 찾아낼 수도 있다.
- 뉴런은 링크로 연결되어 있고, 각 링크에는 그와 연관된 수치적인 가중치가 있다. 가중치는 ANN에서 장기 기억을 위한 기본적인 수단으로, 각 뉴런 입력 강도, 즉 중요도를 표현한다. 신경망은 가중치를 반복적으로 조정하여 학습한다.
- 각 뉴런은 기초적인 정보 처리 단위이다. 따라서 입력과 수치적인 가중치가 주어지면 자신의 활성화 수준을 계산할 수 있다.


인공 신경망을 만들려면 먼저 얼마나 많은 뉴런을 사용할 것인지, 신경망에서 뉴런을 어떻게 연결할 것인지를 정해야 한다.
- 신경망의 구조를 먼저 선택하고, 어떤 학습 알고리즘을 사용할 것인지 결정한다.
- 마지막으로 신경망을 훈련시킨다. 즉 신경망의 가중치를 초기화하고 훈련 예제들의 집합에서 해당 가중치를 갱신한다.


단층 퍼셉트론 (로젠블랫) : 초평면으로 n차원 공간을 두 개의 결정 영역으로 나눈다.
퍼셉트론의 실제 출력과 목표 출력 간의 차이를 줄이도록 가중치를 조정하면서 학습한다.


1단계 : 초기화 (가중치 Wi 와 임계값 θ를 [-0.5, 0.5] 구간의 임의의 값으로 설정
2단계 : 활성화 (계단 활성화 함수 Y(p) = 스텝함수)
3단계 : 가중치 학습 (퍼셉트론의 가중치를 갱신한다.)
wi(p+1) = wi(p) + ∆wi(p)
∆wi(p) = α x Xi(p) x e(p) : 델타규칙
4단계 : 반복 횟수 p값을 1증가시키고, 2단계로 돌아가서 수렴할 때까지 반복!

Y (활성화 함수)의 종류 : 계단함수, 부호함수, 시그모이드함수, 선형함수


단층 퍼셉트론 : 선형 분리


다층 신경망 : 하나 혹은 그 이상의 은닉층이 있는 피드포워드 신경망이다.

은닉층은 왜 필요한가?
- 다층 신경망의 각 층에는 각각 자신만의 특정함수가 있다. 은닉층에 있는 뉴런은 특성을 파악한다.
- 뉴런의 가중치는 입력 패턴에 숨겨져 있는 특성을 나타낸다. 출력층이 출력 패턴을 결정할 때 이 특성을 사용한다.
- 하나의 은닉층으로 입력 신호의 모든 연속 함수를 표현할 수 있으며, 두 대의 은닉층으로는 불연속 함수도 표현할 수 있다.

- 은닉층은 목표 출력을 ‘숨기고’ 있다. 은닉층의 뉴런은 신경망의 입출력 동작을 통해 관찰되지 않는다.
- 은닉층의 목표 출력이 무엇이 될 것인지 알 수 있는 명확한 방법은 없다. 즉, 은닉층의 목표 출력은 해당 층에서 자체적으로 결정된다.

- 상업적인 ANN은 1~2개의 은닉층을 포함해서 3~4개 층을 사용하고, 각 층에는 10~1000개의 뉴런이 들어간다.
- 실험에 의해서는 3~5개의 은닉층을 포함해서, 5~6개 층까지 있을 수 있다.

- 100가지 이상의 서로 다른 학습 알고리즘이 있지만, 가장 인기 있는 방법은 역전파 방식이다. (1969, Bryson)
- 역전파 방식은 뉴런들 간의 연결(신경망의 구성), 뉴런이 사용하는 활성화 함수, 가중치를 조정하는 절차를 명시하는 학습 알고리즘 (또는 학습 법칙)에 의해 결정된다. (활성화 함수는 주로 시그모이드 함수를 주로 사용한다.)
※ 생물학적 뉴런은 서로 연결된 시냅스의 강도를 조절하기 위해 역방향으로 동작하지 않는다. 즉, 역전파 학습은 인간을 흉내낸 것은 아니다.

홉필드 신경망 (단층 순환 신경망) : 출력에서부터 입력까지 피드백 루프가 있다. 피드백 루프는 신경망의 학습 능력에 많은 영향을 미친다.

양방향 연상 메모리 (BAM, Bart Kosko, 1987), 자기조직 신경망 (헤브 학습, 경쟁학습, 멕시코 모자 학습)



Chapter 07. 진화 연산

지능(intelligence)은 끊임없이 변하는 환경에 시스템이 적응하는 능력이라고 정의할 수 있다.
- 진화 연산은 컴퓨터에서 진화를 흉내 내는 것이다. 그 결과는 대개 단순한 규칙에 바탕을 둔 최적화 알고리즘이다.
- 최적화 알고리즘은 최적해에 도달하거나 유효한 해가 발견될 때까지 해의 품질을 반복해서 향상시킨다.

- 진화의 개별 유기체의 행동은 생태 환경에서 아직 알려지지 않은 면에 대한 귀납 추론이라고 생각할 수 있다.
- 이때 유기체가 여러 세대에 걸쳐 살아남는다면 환경 변화를 예측하는 방법을 학습하는 능력이 있다고 할 수 있다.

기계학습에 대한 진화적 방법론은 자연 선택과 유전학 계산 모델에 근거한다. 이를 진화 연산이라 한다.
- 진화 연산은 유전알고리즘(genetic algorithm), 진화 전략(evolution strategy), 유전 프로그래밍(genetic programming)을 포함한다.
- 이 모든 기법은 선택, 변이, 재생산을 이용하여 진화를 흉내 낸다.

※ 찰스 다윈의 진화론 (1858. 7월 1일)
신 다윈주의 : 재생산, 진화, 경쟁, 선택 과정에 바탕을 둔다.

※ 1970년대 초, 존 홀랜드가 유전 알고리즘 개념을 창안했다. (1975)
자연이 하는 일을 컴퓨터가 할 수 있도록 하는 것.

※ 변이는 탐색 알고리즘이 지역 최적점에 갇히지 않도록 보장하는 역할을 한다.
- 선택과 교차 연산만 적용하다 보면 동질적인 해집단에서 정체될 수 있다.
- 그런 경우에는 모든 염색체가 동일하기 때문에 해집단의 평균 적합도가 향상되지 않는다.
- 변이는 임의 탐색과 동등하며 유전적 다양성을 잃지 않도록 도와 준다.

유전 알고리즘은 생물학적 진화에 바탕을 둔 통계적 탐색 알고리즘(stochastic search algorithm) 집합이다.
풀어야 할 문제가 명확하게 정의되고, 후보 해를 나타낸 이진 문자열이 주어질 때,
1단계 : 문제 변수 영역을 고정된 길이의 염색체로 나타내고, 해집단의 크기 N, 교차율 Pc, 변이율 Pm을 정한다.
2단계 : 문제 영역에서 개별 염색체의 성능, 즉 적합도를 재는 적합도 함수를 정의한다.
3단계 : 염색체 N개로 이루어진 초기 해집단을 임의로 생성한다. (x1, x2, … , xn)
4단계 : 염색체 각각의 적합도록 계산한다.
5단계 : 현재 해집단에서 짝지을 염색체 한 쌍을 선택한다. 적합도에 따라 확률적으로 부모 염색체를 선택한다.
6단계 : 유전 연산자인 교차와 변이를 적용하여 자식 염색체 한 쌍을 만든다.
7단계 : 만들어진 자식 염색체를 새로운 해집단에 넣는다.
8단계 : 새로운 해집단의 크기가 초기 해집단 크기인 N이 될 때까지 5단계를 반복한다.
9단계 : 초기(부모) 해집단을 새로운(자식) 해집단으로 교체한다.
10단계 : 4단계로 가서 종료 조건을 만족할 때까지 이 과정을 반복한다.


유전 알고리즘을 사용할 때 가장 심각한 문제는 결과의 질, 특히 최적해를 찾았는지에 대한 것이다.
- 수학함수의 표면 그래프


유전 알고리즘은 확률적이기 때문에 보통 세대마다 성능이 달라진다.
- 그러므로 해집단의 평균 성능을 나타내는 곡선뿐만 아니라 해집단에서 가장 우수한 개체의 성능을 나타내는 곡선도 일정한 세대수에 걸친 유전 알고리즘 동작을 살피기에 유용하다.


컴퓨터 과학 분양의 핵심 문제는 프로그램을 구체적으로 제시하지 않은 채 컴퓨터가 문제를 풀 수 있는 방법을 찾는 것이다.
- 유전 프로그래밍은 자연 선택 방법으로 컴퓨터 프로그램을 진화시킴으로써 이 문제를 해결한다.
- 사실 유전 프로그래밍은 기존 유전 알고리즘을 확장한 것이다.
- 반면, 유전 프로그래밍은 해로서 컴퓨터 프로그램을 만든다.
- 유전 프로그래밍은 컴퓨터 프로그램 공간에서 당장 문제를 풀기에 적합한 프로그램을 찾는다. (Koza, 1992)
- 유전 프로그래밍은 유전 연산자를 적용하여 프로그램을 조작하기 때문에 프로그래밍 언어가 컴퓨터 프로그램을 데이터로 조작하고, 새로 만든 데이터를 프로그램으로 실행할 수 있어야 한다. (Koza, 1992)

유전 프로그래밍의 문제 해결 단계 말단 집합(set of terminals)을 정한다.
1. 기본 함수 집합을 선택한다.
2. 적합도 함수를 정의한다.
3. 실행을 제어할 인자를 결정한다
4. 실행 결과를 나타낼 방법을 선택한다.



Chapter 08. 하이브리드 지능 시스템

확률 추론, 퍼지 논리, 인공 신경망, 진화 연산의 결합은 불확실하고 부정확한 환경에서 추론과 학습이 가능한 하이브리드 지능시스템을 구축하는 새로운 방법인 소프트 컴퓨팅의 핵심이다.
전통적인 컴퓨팅이나 하드 컴퓨팅에서는 크리스프 값이나 숫자를 쓰는 반면, 소프트 컴퓨팅에서는 소프트 값이나 퍼지 집합을 다룬다.
- 신경망 전문가 시스템
- 뉴로-퍼지 시스템
- 적응형 뉴로-퍼지 추론 시스템
- 진화 신경망
- 퍼지 진화 시스템



Chapter 09. 지식 공학과 데이터 마이닝

지능형 시스템을 구축하는 과정은 해당 문제를 이해하는 데서 시작된다.
먼저 문제를 판단하고 어떤 데이터를 사용할 수 있을 지, 문제를 해결하는 데 필요한 것을 결정해야 한다.
이러한 지능형 지식기반 시스템을 구축하는 과정을 지식 공학(knowledge engineering)이라 한다 (Waterman, 1986, Durkin, 1994)
1. 문제 판단
2. 데이터와 지식 습득
3. 원형(prototype) 시스템 개발
4. 완전한 시스템 개발
5. 시스템 평가 및 수정
6. 시스템 통합 및 유지 보수

지능형 시스템에서 발생하는 전형적인 문제


데이터의 문제 : 호환되지 않는 데이터, 모순된 데이터, 분실한 데이터

1. 전문가 시스템은 어떤 문제를 해결할 수 있는가?
- 진단과 고장 원일을 찾는 문제에 적합하다 (의료 진단 전문가 시스템)
2. 퍼지 전문가 시스템은 어떤 문제를 해결할 수 있을까?
- 인간의 의사결정을 모델링하는 데 적합하다. (담보 대출 신청 평가)
3. 인공 신경망은 어떤 문제를 해결할 수 있을까?
- 예측, 분류, 군집화 문제에 적합하다 (언어/문자 인식, 사기 거래 탐지, 프로세스 제어, 환율 예측, 로보틱스 등)
4. 유전 알고리즘은 어떤 문제를 해결할 수 있을까?
- 최적화 문제에 적합하다. (좀 더 만족스러운 해를 찾는 문제, 예로 순회 판매원 문제)
5. 하이브리드 지능 시스템은 어떤 문제를 해결할 수 있을까?
- 복잡한 현실 문제에 적합하다. (여전히 진화 하는 중)

데이터는 모아서 저장해 놓은 것을 말하며, 지식은 정보에 근거한 결정을 내리도록 도와주는 것이다.
- 데이터로부터 지식을 추출하는 것을 데이터 마이닝(data mining)이라고 한다.
- 데이터 마이닝은 의미 있는 패턴과 규칙을 찾기 위해 엄청난 양의 데이터를 뒤지고 분석하는 것으로 정의할 수도 있다. (Berry, 2000)
- 결국 데이터 마이닝의 궁극의 목적은 지식을 발견하는 것이다.

데이터 웨어하우스는 대형 데이터베이스로 저장된 데이터는 시간 의존적이고 통합되어 있다 (Adriaans, 1996)
- 데이터 마이닝은 어떤 가설도 필요 없으며, 숨겨진 관계와 패턴을 자동으로 발견한다.
- 데이터 마이닝이 사용되는 몇 가지 분야에는 일대일 마케팅, 경향 분석, 사기 탐지가 있다.
- 데이터 마이닝의 도구에는 결정 트리(decision tree)가 있는데, 이는 추론 과정의 지도로 정의할 수 있다.