JANGUN


데이터 과학자
Data Scientist


지음 : 차하리아스 불가리스
안성준 옮김



목차

1장 데이터 과학과 빅데이터
2장 데이터 과학의 중요성
3장 데이터 과학자의 유형
4장 데이터 과학자의 사고 방식
5장 기술적 자질
6장 경험
7장 인적 네트워크
8장 사용하는 소프트웨어
9장 새것을 배우고 문제와 씨름하기
10장 기계 학습과 R 플랫폼
11장 데이터 과학 프로세스
12장 필요한 전문 기술
13장 데이터 과학 일자리 찾기
14장 자신 알리기
15장 프리랜서의 길
16장 경험 있는 데이터 과학자 사례 연구
17장 선임 데이터 과학자 사례 연구
18장 새내기 데이터 과학자에게 고함


빅데이터 시대를 주도하는 사람들
그들은 무엇을 배우고 어떻게 준비하는가?



1장 데이터 과학과 빅데이터

빅데이터는 최근의 현상으로 양이 매우 많고, 빠르게 움직이며, 구조화된 형태부터 비정형까지 구조도 다양하고, 신뢰 수준도 다르다. 이런 특성은 data 4V (volume 양, velocity 속도, variety 다양성, veracity 신뢰도)로 나타내곤 한다.
이런 네 가지의 V 특성을 가진 빅데이터를 다룬다는 것은 하나의 도전이다. 데이터 과학은 빅데이터가 우리에게 던져 준 도전에 대한 우리의 대처이다
데이터 과학자는 예술의 경지에 오른 기술과 노하우를 이용하여 빅데이터 안에서 대처 가능한 정보를 도출하고 실용적인 데이터로 만드는 사람이다.
빅데이터는 다양한 산업에서 발생하는데, 생산성 향상이나 이익 증대라는 측면에 막대한 영향을 줄 수 있다.
데이터 과학은 이십 년 전부터 있었지만, 최근에 관련 기술(병렬 처리 기법, 지능적 데이터 분석 기법, 저비용 고효율의 컴퓨터)의 발달로 잘 알려지게 되었다.
데이터 과학자의 역할은 2005년도 문헌에서 처음으로 언급되었다. 그리고 2009년이 되어서야 비로서 인기 분야가 되기 시작했다. 하버드 비즈니스 리뷰에 실린 글에서는 데이터 과학자가 21세기 직업 중 가장 매력적인 직업이라고 한다.
데이터 과학은 기업의 가치와 기술, 지식, 노하우와 함께 지속적으로 발전할 것이며, 더불어 이 분야도 인기를 끌고 있다.


2장 데이터 과학의 중요성

보통 사람들이 생각하는 것보다 데이터 과학자는 더 오래 전부터 있었다. 단지 지난 세기부터 알려지기 시작했을 뿐이다.
2010년 9월 드류 콘웨이가 만든 유명한 벤 다이어그램이 데이터 과학의 본질을 효과적으로 요약하여 설명하고 있다.

데이터 과학을 통해 데이터를 다루는 방법을 새롭게 인식하게 되었다. 데이터를 다루는 주요 방법은 다음과 같다
- 맵리듀스
- 하둡 분산 파일 시스템 (HDFS)
- 고급 텍스트 분석
- 대규모 데이터 프로그래밍 언어 (Pig, R, ECL)
- 대체 데이터베이스 구조 (Hbase, Cassandra, MongoDB)
데이터 과학은 과거 우리가 데이터 전문가로서 데이터를 다루던 방법에 새로운 인식을 불어 넣었고, 빅데이터를 다루는 데 필수적인 새로운 사고방식을 갖게 하는 중요한 변화를 가져왔다.
데이터 과학자가 추구하는 새로운 사고 방식은 데이터 과학자라는 전문직 종사자의 삶과 다른 사람들과 교류하는 방법에도 몇 가지 변화를 가져왔다.


3장 데이터 과학자의 유형

데이터 과학자의 5가지 유형 : 데이터 개발자 / 연구자 / 창작자 / 사업가 / 혼합-포괄 유형
데이터 개발자는 프로그래밍 전문가이다. 그러나 다른 데이터 과학 기술은 별로 가지고 있지 않다. 통상적으로, 기존 IT 분야 종사자가 전업하는 경우이다
데이터 연구자는 데이터 분석 기술에 전문 지식을 가지고 있으며, 기계 학습 분야 등에 대한 해박한 지식을 소유하고 있다. 보통 박사 학위 소지자나 학문적 연구에 관련된 사람들이 많다.
데이터 창작자는 앞의 두 유형에 비해 데이터 과학 분야를 총체적으로 배운 사람들이다. 오픈 소스에 편향적이고 매우 다재다능하다. 여러 다양한 산업에서 이런 유형의 데이터 과학자가 배출되는데, 특히 컴퓨터 공학자들이 전업하는 경우가 많다.
데이터 사업가는 데이터 과학자의 최상위 계층을 말한다. 대체로 경영에도 관여하는데, 데이터 과학 자체보다 기업 세계에 더 가깝다고 해야 할 것이다. 경영학 학위와 같이 다양한 교육 배경을 가진 전문가들이다.
혼합/포괄 유형은 데이터 과학에 대한 모든 측면을 대체로 균형 있게 배운 사람들이다. 데이터 사업가보다는 경험이 적지만, 역시 다재다능하고 다양한 배경을 가지고 있다. 이런 혼합/포괄 유형의 데이터 과학자는 데이터 사업가로 진화한다.


4장 데이터 과학자의 사고 방식

중요한 특징 : 호기심, 실험정신, 창의성과 체계적인 업무, 의사소통
주요 자질과 능력 : 모델 구축, 계획, 문제 해결, 빠른 학습, 적응력, 팀웍, 유연성, 연구, 주의력
열망해야 할 것 : 빅데이터의 소화, 새로운 것 습득, 도전 과제에 익숙해지기


5장 기술적 자질

데이터 과학자는 일일 업무에 사용할 도구로서 특정한 기술을 가지고 있어야 한다
Java나 Perl과 같은 객체지향 프로그래밍 언어 중 최소한 하나는 잘 알고 완전히 숙달해야만 한다
탄탄한 과학적 배경을 가져야 하고, 다음 항목에 능숙해야 한다.
- 과학적 프로세스
- 다양한 데이터 분석 기법에 대한 이론
- 데이터 분석 기법의 실제 이용
- 여러 가설을 세우고 시험하기
- 데이터 분석 기법이 만들어 낸 결과의 이해

박사 학위를 받기 위한 기술적인 훈련이 데이터 과학자에게는 매우 유익할 때가 많다. 모자라는 실무 경험을 대체하기 충분하지만, 그렇다고 필수 조건은 아니다
데이터 과학자라는 직업에는 다음과 같은 전문 지식이 있어야 한다.
- 하나 이상의 데이터 분석 도구(R, SPSS, SAS, Stata, Matlab 등)에 대한 충분한 지식과 사용 능력
- 빅데이터 저장 프레임워크(Hadoop, Hive 등)에 대한 경험
- 데이터 과학에 때때로 필요한 노하우 (시각화와 RDBMS, 소비자 모델링 등등)
데이터 과학 분야는 빠르게 발전하고 있다. 따라서 변화를 빨리 따라잡아야 한다. 특히 학습 계획을 잘 세워서 사용하는 도구의 변화에도 잘 대처해야 한다.


6장 경험

산업 전반에 걸친 데이터 과학자 대다수에게 경험은 기본 조건이다. 경험은 업무를 더 효과적으로 수행할 수 있게 한다. 또한, 경험은 의사소통 능력을 키우고, 데이터 과학자로서 사용하는 도구나 기법에 대한 지식을 더 풍부하게 해준다.
업계나 학계에서 얻은 경험 모두 각기 이점이 있으며, 데이터 과학 일자리에서 업무 경험으로 간주할 수 있다.
첫 업무 경험을 얻는 데에는 최소한 다음과 같은 방법이 있다.
- Kaggle이라는 데이터 과학 대회에 참가
- 관련 업무를 수행하는 회사의 인턴사원
- 데이터 관련 과제를 가지 회사의 사례를 연구하여 논문 발표
- 데이터 과학 모임
- Data Science Central과 같은 사이트에서 찾아 수습 기간


7장 인적 네트워크

데이터 과학자가 되는 데 인적 네트워크는 대단히 중요하다. 특히 경력을 새로 시작하려 한다면 더욱 그렇다
인적 네트워크는 의사소통 기술을 발전시키며, 다른 유형의 사람들과 친해지기 쉽게 해준다. 따라서 데이터 과학자의 업무에 필수 요소이다
인적 네트워크는 데이터 과학이나 유사 분야와 관련된 최근의 혁신에 대한 지식의 원천이다.
데이터 과학자는 인적 네트워크를 통해서 학계와도 늘 건강한 관계를 유지해야 한다. 즉, 최신 기술을 받아들이고 이득이 될 만한 협력 관계를 유지해야 한다.
데이터 과학자는 인적 네트워크를 통해서 기업 세계와 늘 접촉하며 현실감을 유지해야 한다. 그래야만 앞으로 무엇이 필요한 지 이해하고, 빅데이터와 관련하여 어떤 새로운 응용 프로그램이 필요한지 알 수 있으며, 일자리에 국한되지 않은 흥미로운 사업 기회도 얻을 수 있다.


8장 사용하는 소프트웨어

데이터 과학자는 매일 수행하는 작업에 필요한 다양한 프로그램을 이용하고 있다. 이 장에서 살펴본 프로그램 중 두드러지는 것으로 Hadoop/Spark와 Java 같은 객체지향 언어, IBM의 BigInsights와 같은 통합 빅데이터 시스템, 그리고 다른 보조 프로그램(GIT와 Oracle) 등이 있다. 어떤 기업인지 또는 산업인지에 따라서 추가로 필요한 프로그램들도 있다.
하둡은 빅데이터 소프트웨어의 캐딜락이라 할 수 있다. 그 외에, Storm, Spark, BashReduce, the Disco Project 등
데이터 과학자라면, Java나 C++, Ruby, Python, C#등 객체지향 언어 중 최소한 하나를 잘 사용할 줄 알아야 한다.
프로그래밍에 능숙하고 프로그래밍 기술을 더욱 확장하고 싶다면, 함수형 프로그래밍 언어를 알아두면 큰 자산이 될 것이다.
현존하는 데이터 분석 도구 (R, SPSS, SAS, Stata 등) 중 최소한 하나에 정통해야 한다. R과 Octave는 오픈소스이며, R은 대부분이 선택하는 가장 인기 있는 도구이다
다양한 데이터 시각화 소프트웨어 중 최고의 선택은 Tableau이다.
IBM의 BigInsights 플랫폼과 같은 빅데이터 통합 시스템은 전체 데이터 과학 프로세스를 더 효과적으로 수행하게 해주고, MapReduce에 필요한 저수준의 프로그래밍을 하지 않도록 도와준다.
알아두면 좋을 다른 프로그램으로는 GIT, Oracle, MS Excel, MS outlook, Eclipse, Emcien, Filezilla 등이 있다.


9장 새것을 배우고 문제와 씨름하기

데이터 과학자는 자신의 지식을 늘 최신으로 유지해야 한다. 이는 데이터 과학 분야에 새로운 혁신이 일어날 때, 특히 더 그렇다.
워크숍, 학회, 온라인 강좌(MOOC 사이트인 Coursear등), 데이터 과학 모임


10장 기계 학습과 R 플랫폼

기계 학습은 데이터 과학의 핵심을 구성하는 흥미로운 분야이다.
의사결정 트리, 인공신경망, 랜덤 포레스트, 클러스터링 알고리즘, 그리고 최신의 딥 러닝 등의 데이터 분석을 위한 다양한 시스템이 개발되었다.
R은 훌륭한 데이터 분석 플랫폼이다. R은 다수의 기계학습을 위한 몇 개의 라이브러리를 가지고 있다.


11장 데이터 과학 프로세스

1단계 데이터 준비: 데이터 준비는 수치의 정규화와 정리를 통해 분석에 대비하는 과정이다.
2단계 데이터 탐색: 채집한 정보로부터 제대로 분석하기 위한 데이터 소비자의 검색이다. 이 단계에서는 데이터에서 의미 있는 패턴을 찾고, 유용한 부분을 골라내고, 도식을 임시로 만들고, 현재의 진행 상황과 데이터 집합 안에 숨어 있는 정보를 얻어낸다.
3단계 데이터 표현: 컴퓨터에서 이진 기호로 표기되는 방식으로 관련 변수에 특정 자료구조를 할당하는 것과 관련되어 있다. 제대로 된 자료구조는 데이터를 적당한 데이터 집합으로 바꿀 수 있고, 메모리 자원 관리에 기본이 된다.
4단계 데이터 발견: 가정한 공식과 시험을 통해서 가용 데이터 집합이 가진 패턴을 찾는 것이다. 통계학이 많이 쓰이며, 상식을 적용해서 데이터의 의미와 유용한 측면을 찾아낸다.
5단계 데이터로부터의 학습: 창의적인 통계 기법의 사용과 기계 학습 알고리즘을 통해 찾아낸 패턴을 지능적으로 분석하는 것과 관련이 있다. 이 패턴들로부터 무언가 실질적이고 유용한 것을 만들어 낸다. 그리고 다음 단계인 데이터 산출물의 기초를 다진다.
6단계 데이터 산출물 생성: 프로세스에서 가장 중요한 부분이다. 데이터로부터 유용한 정보를 만들어 내고 생산물의 형태로 다른 사람들과 공유하게 한다. 데이터 과학자 Hilrary Mason은 데이터와 알고리즘 조합에 기초한 산출물이라고 정의했다.
7단계 통찰력과 표명, 시각화: 최종 사용자에게 데이터 산출물을 전달하는 것, 처리된 데이터에서 찾은 것들을 돋보이게 시각화하는 것, 그리고 데이터 집합의 다른 측면을 조사하는 것, 그래서 통찰력을 가지고 데이터 과학의 새로운 프로세스를 만들어 내도록 하는 것이다.


12장 필요한 전문 기술

학생이나 객체지향 프로그래머, 소프트웨어 개발자 또는 다른 관련 경력(통계학자, DB 관리자, 데이터 모델러, BI분석가)에서 데이터 과학자로 매끄럽게 전환할 수 있다. 이는 집중하고, 훈련하고, 굳은 결심이 있다면 상대적으로 쉽다.


13장 데이터 과학 일자리 찾기

데이터 과학 일자리를 찾을 좋은 기회를 얻으려면, 체계적이고 끈질기고, 인내심 있고 다소 공격적일 필요가 있다. 일자리를 탐색하기 전에, 정확하게 무엇을 찾고 있는지, 무엇을 희생할 수 있는지 등 가능한 구체화하는 것이 중요하다.


14장 자신 알리기

자신을 소개하는 것은 좋은 이력서나 소개서를 쓰는 것 이상이다. 편지나 통화를 통해서든, 아니면 고용주와 직접 대면하는 미팅이든, 첫인상을 다듬으려면 많은 노력이 필요하다.


15장 프리랜서의 길

데이터 과학 분야에서 프리랜서 업무는 도전적이지만 또한 나름 보수도 괜찮다.


16장 경험 있는 데이터 과학자 사례 연구


17장 선임 데이터 과학자 사례 연구


18장 새내기 데이터 과학자에게 고함