Data Science/Analytics2013.04.28 23:44

2012 IT의 화두 중 하나는 단연 빅데이터이다. 기업은 데이터가 기하급수적으로 많아지면서 어떻게 하면 늘어나는 데이터를 잘 활용할 수 있을까 고민하게 되었고, 데이터를 활용하여 기업에게 인사이트를 제공할 수 있는 사람을 가리켜 데이터 사이언티스트라고 부르고 있다.

데이터 사이언티스트는 한국말로 번역하면 데이터 과학자이다. 만약 데이터 과학자라고 불리게 된다면, 과학자의 한 명으로 인정받는 것이다.

최근에 과학자로서의 자세라는 글을 보게 되었다. 예전 학부 수업 당시 교수님이 과학자로서 가져야 할 자세라며 꼭 읽어보라고 하며 주신 글이다. 데이터 사이언티스트에 관심이 많은 이 시점에 과학자로서의 자세라는 글은 흥미로운 소재였다. 아래는 영문으로 적힌 글을 의역한 내용이다.

 

o 과학자는 기존에 있던 이론을 비판적으로 볼 수 있어야 한다. 예를 들어, Van Mannen의 명성에 의해 많은 과학자들이 은하계에서 성운의 위치를 비판 없이 받아들였는데, 사실 이것은 틀렸다.

 

o 과학자가 올바른 결정을 내리기 위한 대부분의 지식과 스킬은 개인적인 경험과 다른 과학자와의 상호작용으로부터 나온다. 이는 과학자의 작업은 홀로 하는 것이 아니라는 말이다.

 

o 가설은 엉뚱한 결과가 나오지 않도록 견고하게 짜여야 한다. 좋은 가설은 개별적인 관찰을 통합할 수 있어야 한다. 또한 중요한 점은 가설의 단순함(simplicity)이며, 다른 정제된 말로 표현하자면 고상(elegance)함이다.

 

o 과학에서부터 분리될 수 없고, 또 그래서는 안 되는 것은 가치이다. 열심히 연구하고자 하는 것은 인간적인 가치로부터 나온다. 또한 정직함과 객관성이 유지되고 관리되어야 한다.

 

o 과학분야에서 인용(citations)은 보상의 하나이다. 다른 사람들의 작업을 습관적으로 인용을 하지 않는 자들은 동료들과의 유대에서 멀어질 수 있다.

 

o 새로운 법칙을 발견하고자 하는 욕망은 증거를 무시하는 행동을 낳기도 한다.

 

o 정직한 오류와, 부주의로 인한 오류에 이어 3번째 오류는 속임(deception)에 의한 오류이다. 데이터나 결과를 날조(fabrication), 변조(falsification), 그리고 다른 사람의 작업을 정당한 인용 없이 사용하는 표절(plagiarism)이 있다. 이 모든 게 과학의 중심가치에 반하는 행위이다.

 

이상 과학자로서의 자세에 대해 알아보았다.

 

데이터 사이언티스트라면 본인의 업무를 수행할 때 위의 내용을 숙지해야 할 것이다. 예를 들어, 데이터 사이언티스트가 어떤 기업으로부터 색다른 비즈니스 기회를 찾아달라는 작업을 부탁 받으면, /그녀는 분석을 통해 기업에게 의미 있는 것을 찾아내기 위해 노력할 것이다. 하지만 아무리 분석을 해도 기업에게 유용한 정보가 나오지 않고 상식적인 수준에 그친다면, 작업을 하게 된 데이터 사이언티스트는 초조해질 수 밖에 없을 것이다. 그럴 때 상기해야 할 것이 과학자로서의 자세이다. 본인이 가진 가설에 대해 충분한 분석을 하고, 다양한 시도를 해보았지만, 기존과 다른 의미 있는 결과는 없었다는 것을 문서화 하고 발표할 수 있는 용기가 그들에게 요구된다.

또한, 그들은 기존에 상식적으로 통용되는 것에 대해 의문을 갖고 분석하는 습관을 가져야 할 것이다. 사람들이 상식적으로 알고 있는 것은 분석에 의해 명확해질 수 있다. 카이스트의 장영재 교수께서 세미나에서 소개해준 사례를 예로 들자면, 박빙의 승부에서 번트를 시도하는 것이 과연 점수를 낼 확률이 높을지에 관한 것이다. 상식적으로 생각하면, 번트를 통해 1점을 낼 확률이 다른 방법보다 더 높아 보인다. 이를 직접 분석한 결과를 보면, 무사 1루에서 번트 없이 1점 날 확률은 0.4, 무사 1루에서 번트를 시도했을 때 1점 날 확률은 0.417 0.017로 높다. , 확률적으로 아주 큰 차이가 나는 것은 아니지만, 실제로 번트를 통해 1점을 낼 확률이 더 높다.

앞으로 데이터가 많아지면 많아질수록 기업에게 데이터 사이언티스트는 없어서는 안 될 존재가 될 것이 분명하다. 그들은 과학자로서의 기본소양을 항상 숙지하고 업무를 수행해서 과학자로도 인정받는 사람이 되어야겠다.

Posted by Insight jsl416
Data Science2011.12.15 17:06
관련 링크

'빅 데이터' 시대에는, 정보의 양은 점점 더 많아지고 있다.

관련 링크 참고하면, "전세계 디지털 정보량이 오는 2020년에는 2009년보다 44배 늘어난 35ZB(제타바이트)에 이를 것이라고 전망"했다.

TB(Terabyte) 하드가 대세인 요즘, 제타바이트는 생소하다.

검색해보니~ 제타바이트는 1GB보다 1000^4. 즉, 영이 12개가 더 많이 붙은 데이터의 양이다.. 엄청나다. 1,000,000,000,000 GB = 1 ZB

1 KB < 1MB < 1GB... 1GB 보다 큰건 요즘 많이들 쓰는 1TB < 1PB(페타바이트).. 이 보다 큰 양은 1EB(엑사바이트), 그리고 지금 말한 제타바이트다. 1ZB.. 엄청난 데이터 양이다..

이 보다 더 큰 단위는 1YB(요타바이트)이다.
정리하면
1KB < 1MB < 1GB < 1TB < 1PB < 1EB < 1ZB < 1YB

이러한 데이터중 구조화된 데이터는 5%라고 한다. 현재 (35ZB/44)의 5%라면, 약 40EB.. 이다.다. 비구조화된 데이터는 800EB..

그렇다면, 상대적으로 엄청난 양의 비구조화된 데이터가 생산된다는 말이다. 유투브에서 생산하는 개인적 비디오, SNS의 글들 등..

이러한 데이터의 홍수속에서 데이터를 담겨 있는 의미를 찾아 앞으로의 트렌드를 그려내는 역할을 하는 직업군이 '데이터 사이언티스트'이다....

흠...(To-Be continued)
Posted by Insight jsl416
Data Science/News2011.12.14 15:34
관련 링크

o 소셜 분석 3단계
 : 소셜화  --> 모바일화 --> 최적화
 
o 소셜 분석 활용 예
   - 미국의 메이시스 백화점, '하이퍼포먼스 애널리틱'(HPA) 활용
   - 넷플릭스 미국 온라인 미디어 콘텐츠 서비스 업체, '시네 매치 엔진' 활용
   - 하라스엔터테인먼트, 카지노와 호텔의 만년 2위 기업, '차별적 고객전략' 활용
   - 프레시오마시, 이탈리아의 한 소셜 금융업체, 비구조화된 SNS 데이터도 정량적 데이터와 같이 활용

o 애널리틱 팩토리 : 공장에서 제품을 빨리 생산하듯이, 데이터 분석을 모듈화해서 빨리 대응 하겠다는 것
Posted by Insight jsl416