JANGUN


데이터 과학 입문


지음 : 장영재 외



목차

제1장 데이터 그리고 데이터 과학자
제2장 데이터 과학자가 만드는 미래사회
제3장 데이터 구조와 저장
제4장 데이터 품질 및 분석
제5장 데이터 기반의 의사결정 및 프리젠테이션
제6장 데이터 시각화의 이해
제7장 데이터마이닝의 이해
제8장 데이터 과학자의 역할 및 전망


제1장 데이터 그리고 데이터 과학자

데이터 수집의 역사
- 실험에 의한 데이터 생성 수집 : Ronald Fisher (1890~1962, 통계학의 아버지, 실험 계획법)
- 사람의 생각을 데이터로 수집 : George Gallup (1901~1984, Social survey)
- 고객대상 업무를 통해 생성된 데이터 수집 : Earl J. Issac (1921~1983, 고객 분석 모델)
- 공정에서 생성된 데이터 수집 : 다구찌 겐이치 (1924~2012, 다구찌 방법론, 손실함수)

데이터 마이닝
- 데이터의 저장창고, 데이터 웨어하우스
- 고객관계관리
- 데이터 기반의 마케팅 도입
- 데이터 마이닝의 탄생과 활용


빅데이터의 정의
- 3V+1V : Volume(scale of data) + Variety (Different forms of data) + Velocity (Analysis of streaming data) + Veracity (Uncertainty of data)

빅데이터 주요 기술
- Hadoop
- R
- Java > C > C++ > C# > Python > Javascript > PHP > Ruby > SQL > MATLAB > PERL > HTML > R > Visual Basic > ...

데이터 과학
= Statistics + Computer Science
- 요구 기술



제2장 데이터 과학자가 만드는 미래사회

인공지능 :
- 자연어 처리, 지식의 정형, 비정형 구조화, 지식 매칭
- Deep Learning


지식의 원천
- 빅데이터

추천 서비스
- Netflix 경연대회
- 협업 필터링
- Kaggle

개인화 서비스
- 아마존의 배송 예측 : 사용자의 행동분석 및 예측모형, 구매패턴 예측, 최적 제품가격 제시모형
- 구글의 스마트카 시스템

윤택한 사회
- 건강한 삶


- 연결된 사회


안전한 사회
- 평안한 사회 실현 : 범죄 예측, 위험 감지
- 건전한 사회 실현 : 사기, 해킹 등 불법 방지



제3장 데이터 구조와 저장

데이터의 정의
- 데이터란 질적인, 혹은 양적인 변수들의 가치 집합으로서 정보의 조합
- datum의 복수형으로서 ‘주다(give)’라는 뜻의 라틴어 동사 dare에서 비롯
- datum은 주어진 것들의 의미를 지니고 있으므로, 찾아가는 방법을 탐구하는 것이 데이터과학자의 임무
- 데이터는 근본적으로 의사결정에 적합한 정보를 추출하기 위해서 사용되는 것
- 올바른 데이터의 수집이 중요
- 정보는 관찰이나 측정을 통해 수집한 자료를 문제 해결을 위해 체계적으로 정리한 것을 의미

- 특정한 주제에 관해 정보를 다루면서 발생하는 여러 가지 이벤트들을 접하게 되는데, 이 과정에서 수많은 축적된 경험으로부터 획득되는 것이 지식이다.
- 올바른 지식이나 정보를 축적하기 위해서는 신뢰도 높은 데이터가 바탕이 되어야 함

데이터의 속성
- 측정 가능성 : 수치적인 계량에만 국한된 것이 아니고 시각이나 청각을 통해 인지할 수 있는 대상도 데이터의 범주에 포함됨
- 통계패키지의 데이터 형태 : 벡터, 행렬, 배열, 리스트 및 데이터 프레임

데이터의 분류
- 생성목적에 따라 내부 데이터와 외부 데이터로 구분
- 내부 데이터는 데이터를 수집하는 기업 등의 목적에 따라 데이터베이스에 축적되어 이용, 외부에 공개되지 않음, 분석업무 및 의사결정에 사용
- 외부 데이터는 일반인에게 공개되어 있는 데이터

데이터의 수집
- 데이터는 데이터 분석을 담당하는 데이터 과학자의 의중에 따라 특별한 목적을 가지고 수집됨
- 분석의 궁극적인 목적이 무엇인지 명확히 정의한 후 데이터를 수집
- 수집 방법 : 검색 데이터, 소셜 네트워크, 웹문서, 공공 데이터
- 네이버 트랜드, 구글 트렌드, 트위터, 페이스 북의 API 서비스
- 웹 크롤링, 인덱싱, 스크래핑
- 웹 스크래핑 : 웹 브라우저 화면에 표시되는 다양한 정보 중 사용자가 지정하거나 필요한 정보만을 추출하여 가공하고 저장하며 사용자에게 제공하는 기술
- 웹 크롤링 : 기초가 되는 URL seed들을 저장한 뒤
웹페이지의 하이퍼링크를 인식하여 URL을 갱신, 웹사이트의 구조를 파악할 필요가 있다

데이터베이스
- 데이터베이스란 여러사람들이 공유하여 이용하기 위해 통합 관리되는 정보의 집합
- 한 개 이상의 자료가 논리적으로 연결되어 축적되며 이 축적 과정에서 구조화 방법을 이용함으로써 자료 검색과 갱신의 효율성을 최대한 확보
- 특징 : 통합된 데이터, 데이터의 연관성, 데이터 중복의 최소화, 보조기억장치 활용, 동시 공유, 최신 데이터 유지, 일관성, 무결성, 보안성
- 데이터베이스 모델 : 데이터의 논리적 설계와 그들 간의 관계를 표현한 것
- 데이터 모델 : 데이터 베이스 설계과정에서 데이터의 구조를 표현하기 위해 사용되는 도구, 일종의 개념적 도구
- 데이터베이스 관리 시스템 (DBMS) : 데이터베이스의 정의, 조작, 제어 관리



제4장 데이터 품질 및 분석

데이터 품질
- 정의 : 데이터를 사용하기에 적절한 환경, 즉 적합성, 적시성, 정확성, 완전성, 적절성 및 접근 가능성을 이르는 말
- 지식 및 정보와 관련된 업무에 종사하는 사람들이 데이터를 활용하여 업무를 효과적으로 수행하기 위한 데이터의 기대 수준
- 좋은 품질의 데이터는 데이터의 적시성이 담보되는 가운데 업계 표준을 준수하는 완전하고 일관성 있는 정확한 데이터를 의미
- 데이터 품질관리 : 업무 목적을 효과적으로 달성할 수 있도록 데이터의 품질을 지속적으로 관리하는 프로세스

데이터 품질관리 시스템 (DQMS)
- 데이터의 품질관리를 효과적으로 할 수 있도록 돕는 시스템
- 신뢰할 수 있는 좋은 데이터가 생성되고 공급 체인내의 원활한 흐름을 통해 원활히 전달되고 유지될 수 있도록 하는 내부 프로세스

데이터 분석
- 분석 질문의 우선적 정의 : 무엇을 분석할 것인지 구체적이고 명확하게 정의할 필요
- 데이터 분석 기획 단계는 기초 재료를 가지고 얼마나 믿을 수 있고 실현 가능한, 성공적인 성과물을 만들 수 있는지 청사진을 제시하고 도면을 설계하는 과정
- 데이터 분석기회라는 것은 주요한 의사결정의 대상이 되는 업무를 정의하고 이 업무를 효과적으로 수행하기 위해서는 알아야 할 주요 사항들을 정리하고 찾는 방법
- 분석기획 - 분석 핵심 문제의 발견 – 분석기회의 정의 – 구체적인 분석 질문의 작성



제5장 데이터 기반의 의사결정 및 프리젠테이션

의사결정 지원 시스템 (DSS, Decision support System) : 데이터 기반의 의사결정을 데이터베이스와의 연관성을 고려하여 지원할 수 있는 방법

DDS의 구성 :
- 다양한 데이터를 저장하고 있는 데이터베이스와 이를 관리하는 데이터베이스 관리시스템
- 의사결정에 필요한 다양한 모델들을 저장하고 있는 모델베이스와 이들을 관리하는 모델베이스 관리시스템
- 데이터의 입력과 출력, 분석 과정에서 나타나는 사용자와 시스템 간의 인터페이스 환경을 제공하는 사용자 인터페이스
- 의사결정지원시스템의 사용자는 주로 기업의 고위 경영자들로서 대안들을 평가하고 분석하여 최적 대안을 선택하는 의사결정과정을 수행

프리젠테이션
- 프리젠테이션은 듣는 이에게 정보, 기획, 안건을 제시하고 설명하는 행위
- 어떠한 매체를 이용하여 각종 정보를 여러 가지 효율적인 형태로 상대방에게 전달하는 것
- 내용의 명확성, 간결성, 흡인력 등을 바탕으로 체계화된 구성이 필요하다
- 3요소 : 목적, 청중, 장소

데이터 시각화란 데이터 자체의 시각적 표현의 연구 영역을 의미

데이터마이닝은 다량의 가공하지 않은 데이터로부터 소량의 귀중하고 유용한 정보 혹은 지식을 추출하는 과정
- 관련분야 : 통계학, 패턴인식, 기계학습, 인공지능, 데이터베이스


데이터 자체의 이해와 분석 능력 뿐만 아니라 데이터 환경변화를 잘 이해하고 분석할 수 있는 능력 필요



제6장 데이터 시각화의 이해

데이터 시각화
- 목적 : 데이터를 직접 일일이 보지 않고도 정보를 명확하고 효과적으로 전달하는 것
- 데이터, 전달, 도형, 그림, 효과적, 빅데이터, 통찰력, 분석, 의사소통, 스토리, 흥미, 확산, 기억, 시간
- 맥캔들리스의 시각적 이해의 위계도


- 좁은 의미의 데이터 시각화란 데이터 자체의 시각적 표현의 연구 영역을 의미
- 데이터 시각화의 주요 목적은 그래픽을 이용해 명확하고 효과적으로 정보를 전달, 교감하는 것
- 정보 시각화란 대규모의 비수량 정보를 시각적으로 표현하는 방법에 관한 연구 영역
- 정보 디자인(information design)은 사람이 사용할 수 있는 효과적인 정보와 복잡하고 비구조적인 기술 데이터를 시각적으로 표현하는 방법
- 인포그래픽(information graphics, infographic)은 복잡한 데이터, 정보, 지식을 빠르고 명확하게 이해할 수 있도록 제작된 시각적 표현법

시각화 프로세스 - 벤 프라이
(1) 획득(acquire) : 파일, 디스크, 혹은 네트워크 등의 다양한 소스로 부터 정보를 수집하는 과정
(2) 분해(parse) : 정보의 의미를 바탕으로 구조를 주고 이를 카테고리화하는 과정
(3) 선별(filter) : 선행과정을 바탕으로 의미 있는 정보와 의미 없는 정보를 구분해 필요 없는 정보를 제거하는 과정
(4) 마이닝(mine) : 통계기법 혹은 데이터마이닝 기법을 활용하여 데이터로부터 패턴을 인식하거나 수리적 연관성을 찾아내는 과정
(5) 표현(represent) : 패턴 및 연관성을 기초적인 시각화 도구(막대그래프, 트리 등)를 활용하여 표현하는 과정
(6) 정제(refine) : 더 명확하고 설득력 있는 의미 전달을 위해 전 단계의 기초적인 시각화 결과물을 시각적으로 정제하는 과정
(7) 상호작용(interact) : 앞 단계에서 얻은 정보를 다양한 시각에서 변형, 재탐색 할 수 있는 방법을 반영하는 과정

- 정보 구조화 : 데이터를 수집하고 정제하는 과정으로 데이터세트를 만들기 위한 분석 도구 필요
- 정보 시각화 : 주로 분석 도구에서 제공하는 그래프나 분석 도구의 특성에 따른 시각화
- 정보 시각표현 : 시각화의 의도를 강화해 전달하기 위해 분석 도구에서 만든 결과물에 별도 그래픽 요소를 추가해 완성
- 정보 시각화 방법은 분석 도구와 함께 제공되는 시각화 도구에 의해 결정되는 경향

시각화의 다양한 기법
- 시간 시각화 : 장기간에 걸쳐 진행되는 경향성을 추적
- 분포 시각화 : 분포 시각화는 데이터의 특성에 맞게 전체의 관점에서 부분이 차지하는 비율 및 관계를 보여줌
- 관계 시각화 : 상관관계를 알면 한 수치의 변화를 통해 다른 수치의 변화를 예측
- 비교 시각화 : 데이터 내의 변수들의 비교를 통해 데이터를 전체적으로 조망
- 공간 시각화 : 지역적 특성을 지도 위에 직접 맵핑하여 특성에 따른 공간상의 연관성을 시각화하는 것


시각화 도구 : 시각화 라이브러리와 오픈소스 프로그램
- Crossfilter : 그래프, 차트 등 인터랙티브한 시각화를 쉽게 구현할 수 있는 자바스트립트 라이브러리이다. (http://square.github.io/crossfilter/)
- D3.js : 그래프, 차트 등 인터랙티브한 시각화를 쉽게 구현할 수 있는 자바스크립트 라이브러리 (http://d3js.org)
- Dipity : 인터랙티브한 타임라인 구현을 지원하는 서비스로 입력 데이터를 업로드하고, 설정을 통해 손쉽게 타임라인을 구현(http://www.dipity.com)
- Exhibit : MIT에서 개발한 시각화 라이브러리로 지도, 타임라인 등 다양하고 인터랙티브한 시각화 구현(http://www.simile-widgets.org/exhibit/)
- Flot : 다양한 플롯을 쉽게 구현하기 위한 자바스크립트 라이브러리이다. jQuery를 기반으로 개발됨 (http://www.flotcharts.org/)
- Gephi : 네트워크 형태의 데이터를 시각화할 때 유용한 시각화 도구로 다양한 입력 데이터 형식을 처리할 수 있는 플러그인이 제공되며, 그래프 시각화 알고리듬이 구현되어 있음 (http://gephi.org/)
- Google Charts : 구글에서 제공하는 그래프, 차트 등 인터랙티브한 시각화를 쉽게 구현할 수 있는 자바스크립트 라이브러리 (https://developers.google.com/chart/)
- Highcharts : 다양한 차트를 쉽게 구현하기 위해 특화한 자바스크립트 라이브러리 (http://www.highcharts.com)
- iCharts : 인터랙티브한 차트 구현을 지원하는 서비스로 입력 데이터를 업로드하거나 구글 드라이브 등 외부에서 연결해 다양한 차트를 쉽게 구현 (http://www.icharts.net/)
- JavaScript InfoVis Toolkit 그래프, 차트, 인터랙티브한 시각화를 쉽게 구현할 수 있는 자바스크립트 라이브러리로 모듈화가 잘 되어 있어 사용자가 필요 이상의 라이브러리를 다운로드 받을 필요가 없는 것이 특징(http://philogb.github.io/jit/)
- jpGraph : 서버 사이드에서 차트나 그래프를 구현할 수 있는 PHP 기반 시각화 라이브러리로 서버 측에서 생성된 모든 차트나 그래프는 이미지 형태로 저장되어 클라이언트(웹 브라우저)로 전송됨 (http://jpgraph.net/)
- jQuery Visualize : 그래프, 차트 등 인터랙티브한 시각화를 쉽게 구현할 수 있는 자바스크립트 라이브러리로 jQuery를 기반으로 개발됨(https://github.com/filamentgroup/jQuery-Visualize)
- Kartograph : 인터랙티브한 지도 기반의 시각화 구현 라이브러리로 서버 사이드에서는 파이썬 기반의 지도 데이터 생성을 위한 라이브러리를 제공하며, 클라이언트 사이드에서는 자바스크립트 기반의 인터랙티브한 지도 작성을 위한 라이브러리를 제공 (http://kartograph.org/)
- Modest Maps : 인터랙티브한 지도 기반의 시각화 구현을 위한 라이브러리로 자바스크립트, 파이썬, 프로세싱, PHP, 액션스크립트3, C++ 등 다양한 언어에 대한 API를 제공 (http://modestmaps.com/)
- Polymaps : 인터랙티브한 지도 기반의 시각화 구현을 위한 자바스크립트 라이브러리 (http://polymaps.org/)
- Processing : 정보 시각화를 위해 고안된 언어로서 시각화를 위한 다양한 API를 제공하며, 최종적으로 자바 코드, 오브젝티브 C 코드, 또는 자바스크립트로 변환되어 다양한 환경에서 동작 (http://processing.org)
- R : 단순한 명령어들을 통해 다양한 그래프, 차트를 그릴 수 있을 뿐만 아니라, 다양한 통계분석 패키지들을 통해 데이터를 분석할 수 있음(http://www.r-project.org/)
- Rapha 1 : 그래프, 차트 등 인터랙티브한 시각화를 쉽게 구현할 수 있는 자바스크립트 라이브러리로 애니메이션 기능이 화려하고 구현하기가 쉬움 (http://raphaeljs.com/)
- Tableau : 드래그 앤 드롭 방식으로 데이터를 손쉽게 분석하고, 몇 번의 클릭만으로 데이터를 시각화할 수 있는 시각화 플랫폼(http://www.tableausoftware.com/ko-kr/)
- Tangle : 인터랙티브한 그래프를 쉽게 구현할 수 있는 자바스크립트 라이브러리로 그래프와 함께 수식을 표현하기에 유용(http://worrydream.com/Tangle/)
- Timeline : 인터랙티브한 타임라인 구현을 지원하는 HTML, 자바스크립트 기반의 위젯 라이브러리로 타임라인을 손쉽게 구현할 수 있음(http://www.simile-widgets.org/timeline/)
- Visual.ly(비주얼 닷 리) : 인터랙티브한 차트 구현을 지원하는 서비스로 입력 데이터를 업로드 하거나 ‘구글 드라이브’ 등 외부 데이터와 연결해 다양한 차트를 쉽게 구현할 수 있음 (http://create.visual.ly/)
- Visualize Free : 인터랙티브한 차트 구현을 지원하는 시각화 서비스로서 입력 데이터를 업로드하거나 구글 드라이브 등 외부에서 연결해 다양한 차트를 쉽게 구현할 수 있음 (http://visualizefree.com/)

성공적인 데이터 시각화
- 정보전달, 아름다움, 즐거움, 설득력
- 데이터 시각화 기법을 사용하는 주된 목적은 가치 있는 정보를 발굴하는 데 있다. (데이터를 탐색만으로 볼 수 없는 경향을 읽어낼 수 있음)



제7장 데이터마이닝의 이해

데이터 과학에서 데이터마이닝의 역할
- 데이터과학에서 분석과정은 전략적 통찰력을 창출하는 데 핵심적인 역할
- 데이터마이닝은 데이터베이스 또는 데이터웨어하우스에 분산 저장된 방대한 양의 데이터로부터 흥미로운 패턴을 발견하고 미래에 대한 예측 모형을 구축하는 작업

데이터마이닝의 정의
- 데이터마이닝은 다량의 가공하지 않은 데이터로부터 소량의 귀중 하고 유용한 정보 혹은 지식을 추출하는 과정
- 방대한 데이터를 정제하여 통계 및 수학적 기술 그리고 패턴 인식 기술 등을 사용하여 의미 있는 연관성, 패턴 그리고 추세를 발견하는 과정을 총칭
- 유사 용어 : 지식 마이닝(knowledge mining from database), 지식추출(knowledge extraction), 데이터/패턴 분석(data/pattern analysis), 데이터 고고학(data archaeology) 그리고 데이터 준설(data dredging) 등이 있음
- 데이터마이닝은 컴퓨터과학의 인공지능(artificial intelligence), 로봇비전(robot vision), 패턴인식 등에 활용되는 기계학습(machine learning) 이론에서부터 시작
- 데이터마이닝의 주된 사용 목적이 데이터 분석 및 예측모형 적합
- 기존의 통계학이 특정 변수가 결과에 미치는 영향력을 정량화하는 추론 (inference)을 강조하는 반면, 데이터마이닝은 결과에 영향을 주는 변수들의 관계를 모형화하여 이로부터 정확한 예측(prediction)을 하는데 주목적이 있음

데이터마이닝의 과정
(1) 목적 결정 : 프로젝트의 목적을 계획하고 설정하는 단계
(2) 데이터 수집 : 데이터는 보통 데이터베이스에서 무작위로 추출하거나 전부 추출하는 경우가 대부분이지만, 때로는 분산된 데이터베이스로부터 따로 추출하여 통합하기도 함
(3) 데이터 탐색 및 정제 : 본격적인 데이터마이닝 기법을 적용하기 위해 데이터를 표준화 및 점검(quality control) 하는 단계
(4) 데이터마이닝 방법 결정 : 데이터마이닝 문제(분류, 예측, 군집화 등) 및 데이터마이닝 기법(로지스틱회귀, 신경망, 계층군집 등)을 선택하는 단계
(5) 모형선택 : 데이터마이닝 프로세스의 여러 단계를 반복적으로 수행하여 가장 좋은 모형을 찾는 단계
(6) 성능평가 : 검증데이터를 이용하여 구축된 모형의 성능을 평가하여 가장 효율적인 모형을 찾는 단계
(7) 적용 : 구축된 모형을 운용시스템에 탑재하여 실제 의사 결정에 적용하는 단계

데이터마이닝 활용
- 고객관계관리 : 목표마케팅, 고객세분화, 고객성향 변동분석, 교차판매, 장바구니 분석 등
- 신용평가 : 불량 고객 판별
- 품질개선 : 불량품 원인
- 부정행위 적발 : 사기행위 발견 (거래사기, 허위/과다 청구, 스미싱 문자 자동 식별
- 이미지 분석 : 패턴 추출, 천문학, 문자인식, 의료 진단, 방위 산업
- 생명정보학 : 유전자 서열 데이터 분석
- 인터넷 기업


감독학습
- 감독학습(또는 관리학습)의 목표는 입출력 간의 관계를 결정하는 시스템에 대한 유용한 근사 시스템을 구하는 것으로 정의
- 감독학습에서는 학습에 사용되는 실제 출력변수가 존재하여 입출력 변수 간의 관계를 근사시키는 모형 또는 규칙을 학습

자율학습
- 자율학습에서는 ‘교사’의 역할에 해당하는 실제 출력변수가 명시적으로 존재하지 않는 학습법
- 데이터에 존재하는 여러 가지 형태의 특징을 추출하는 목적

분류분석(classification analysis)은 데이터의 실체가 어떤 그룹에 속하는지 예측하는 데 사용하는 데이터마이닝 기법
- 분류(classification)는 객체를 정해놓은 범주로 분류하는 목적

예측분석
- 예측(prediction or forecasting)은 연속적 수치값의 정확한 예측이 목표
- 예측분석 또한 감독학습으로 분류되며, 출력변수가 범주가 아니라 수치값이라는 점에서 분류분석과 차이가 있음

군집분석
- 자료가 가진 특성에 따라 자료를 여러 개의 배타적인 집단으로 나누는 기법
- 자료 객체들은 “군집 내 유사성의 극대화, 군집 간 유사성의 최소화” 원칙을 토대로 군집화됨 –자율학습

연관분석
- 연관분석(association analysis)은 주어진 데이터의 집합에서 함께 빈번하게 발생하는 속성에 대한 조건을 나타내는 연관규칙(association rule)을 발견하는 것에 목적을 두고 있음 –자율학습

텍스트 마이닝
- 텍스트마이닝(text mining)은 다양한 포맷의 문서로부터 데이터를 획득하여 이를 문서별 단어의 매트릭스로 만들어 추가 분석이나 데이터마이닝 기법을 적용해 통찰(insight)을 얻거나 의사결정을 지원하는 방법
- 웹 콘텐츠나 PDF, 마이크로소프트 오피스 파일, 오라클 오픈오피스 파일, XML, 텍스트 파일 등 다양한 포맷의 문서로부터 텍스트를 추출
- 이들 간의 관계를 이용해 감성분석(sentiment analysis)이나 워드클라우드(word cloud)를 수행하고, 이 정보를 군집분석이나 분류분석, 그리고 사회연결망 분석에 활용
- 텍스트마이닝은 사회연결망분석과 함께 비정형 데이터마이닝에 속함

사회연결망분석
- 사회연결망분석(social network analysis)은 개인과 집단들 간의 관계를 모델링하여 그것의 위상구조와 확산 진화과정을 계량적으로 분석
- 개인의 인간관계가 인터넷으로 확대된 사람 사이의 네트워크로, 사회과학 뿐 아니라 경영학, 응용과학 등 다양한 분야에서 응용

적용 사례
- 신용카드사의 부정 사용자 적발 : 분실 혹은 도난, 배달사고, 허위신청, 카드위조, 주변인의 사기, 불법현금융통,
- 이동통신사 고객이탈방지
- DNA 자료 분석



제8장 데이터 과학자의 역할 및 전망

데이터 분석가의 기술적 역량
- 데이터과학자가 되기 위해 갖추어야 할 역량을 배양하기 위해서는 데이터 과학이 포괄하는 영역을 살펴볼 필요
- 데이터 처리와 관련된 IT분야 (시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능컴퓨팅 등)
- 분석적 영역 (수학, 확률모델, 기계학습, 통계학, 패턴 인식과 학습, 시각화 등)
- 비즈니스 컨설팅 영역 (커뮤니케이션, 프리젠테이션, 스토리텔링, 시각화 등)
- 인문학적 소양 및 이해의 중요성


데이터과학자의 윤리의식
- 사생활 침해 및 정보유출
- 정보오용 및 분석결과의 맹신
- '국경없는 데이터(Data Without Border)’에서 이름이 바뀐 ‘DataKind’ 프로젝트(http://www.datakind.org)의 사례가 있음
- 'RunMyCode’ (http://www.runmycode.org)는 데이터과학 및 기타 연구 목적으로 사용되는 데이터와 분석코드를 무료로 공개하고 누구나 재사용 가능하게 할 목적으로 운영되고 있음

향후 전망
- 굿~