Data Science/Statistics2016.02.07 23:24

The fundamental things in statatistics are addressed in 'Elements of Statistical Learning'.

This book pdf  can be downloaded in the following link.


http://statweb.stanford.edu/~tibs/ElemStatLearn/

Posted by Curator jsl416
Data Science/R2016.02.07 18:01

A good reference to 'How to draw boxplot in R'

 

http://msemac.redwoods.edu/~darnold/math15/spring2013/R/Activities/BoxplotsII.html

Posted by Curator jsl416
TAG boxplot, R
Data Science/R2015.03.03 01:41

http://rgraphgallery.blogspot.kr/

 

This site contains R graphs with codes.

Posted by Curator jsl416
Data Science/BigData2014.02.18 17:16

"How Companies Learn Your Secrets"란 제목의 2012년 2월 16일자 기사입니다. 내용이 좀 긴데, 인사이트 및 요약은 다음과 같습니다.

 

  • Target사는 고객 정보를 "Guest ID number"를 통해 관리하며, 고객의 행동정보와 관련 인구통계학적 정보를 수집 또는 구매하여 분석한다.
  • Target은 고객의 구매습관을 분석하여, 적절한 제품광고/쿠폰 발송시기를 예측하고자 했다.
    1. 관련연구: 습관은 뇌에서 크게 "cue(유발인자) --> routine(일상행동) --> reward(보상)"의 3단계를 거친다. 즉, 고객의 습관을 분석하여 습관 유발인자(cue)에 영향을 미쳐, 제품판매를 촉진할 수 있다.
    2. 사람들의 구매패턴은 보통 의식없이 진행되기 때문에 일상적인 구매형태를 바꾸기는 매우 어렵다. 하지만, 인생의 중요한 시기(학교 졸업, 아이의 탄생 등)에는 구매패턴이 상대적으로 변화하며, 이를 예측할 수 있으면 제품의 매출 증대를 이룰 수 있다.
    3. Target은 아이를 임신한 임산부에게 어떻게 관련 제품을 판매할까 고민하게 된다
  • Target사는 데이터 분석을 통해, 25개 제품을 기반으로 한 "임신예측(pregnancy-prediction)" 모델을 개발했다. 제품홍보 및 쿠폰발송시에는 임신관련 제품을 다른 제품과 섞어 진행했고, 이는 큰 매출증대로 이끌었다.


자세한 사항은 아래 기사 및 요약 번역본 참고하세요.
------------------------------------------------
흥미로운 빅데이터 분석의 사례로 미국 유통업체인 'Target'이 있습니다. 'Target'은 자체적으로 수집하는 데이터 기반으로 아버지가 모르고 있던 딸 임신사실을 분석 짐작하고, 임신부 관련 쿠폰을 발송했습니다. 아래 링크의 기사는 'Target'에서 어떻게 이런 사실을 알아냈는지, 보다 심도있게 분석한 기사라 보시면 되겠습니다.

참고로 이 기사를 쓴 사람은 "The Power of Habit"이란 책을 쓴 사람으로, 습관에 대한 관심과 지식이 많은 사람으로 보입니다.

실제로 'Target'은 고객에 대한 모든 정보를 수집합니다. 내부적으로 고객마다 "Guest ID number"를 부여하고, 고객이 하는 행동마다 이 정보와 연관해서 데이터를 저장합니다. 예를 들어, 어떤 것을 구매했는지, 신용카드를 사용 여부, 쿠폰을 사용여부, 설문조사 작성여부, 환불을 요구했는지, 헬프라인에 연락했는지 등 모든 행동정보를 Guest ID에 연관해서 저장합니다.

또한, 인국통계학적 정보(나이, 결혼유무, 자녀유무, 어떤 동네에 사는지, 가게까지 가는데 걸리는 시간, 예측한 수입액, 최근 이사했는지 여부, 어떤 종류의 신용카드를 지갑에 갖고 다니는지, 어떤 웹사이틀 방문하는지 등)도 연관해서 기록합니다. Target은 또한 민족성, 직장 경력, 어떤 매거진을 읽는지, 부도 또는 이혼여부, 집 구매/판매년도, 어느곳의 대학에 갔는지 등에 대한 데이터도 구매할 수 있습니다(단, Target은 어떤 인구학적 데이터를 모으고 구매하는지 명확히 밝히지 않았습니다).

Target은 이러한 데이터를 활용해 "행동 연구(behavioral research)"기반으로 분석을 수행합니다. 여기서 습관에 대한 연구가 언급됩니다. 사람들의 의사결정중 약 45%는 우리가 어떤 의식없이 습관에 의해 행해집니다(듀크 대학 연구결과) 습관은 뇌에서 크게 3가지 단계를 거칩니다. "cue --> routine --> reward"란 3단계를 거치는 사이클을 거칩니다. cue는 어떤 행동을 유발하는 인자인데, 이는 밀리세컨드 일 수 있습니다.

...(중략)

습관을 활용한 사례중 P&G가 개발해서 판매하는 페브리즈(Febreze)가 있습니다. 페브리즈는 처음에 나쁜 냄새를 제거하기 위해 개발(by Stimson and his team)되었고, 광고를 합니다. 어떤 여자가 레스토랑에 앉아있는데, 담배냄새가 베기는데 그녀의 친구가 페브리즈를 권해줍니다. 또 다른 광고에서는 "Sophie"란 개가 침상에 앉아 가구에 "Sophie" 냄새가 나는데, 페브리즈를 통해서 냄새가 사라진다는 광고였습니다. 대박이 날 줄 알았던 페브리즈는 판매가 매우 저조했습니다. 2달 뒤에는 거의 판매가 없는 상태(dud)에 이릅니다.

이를 해결하고자 고객들에 대한 심층 인터뷰를 진행합니다. 그 결과, 페브리즈의 판매실패원인은 사람들은 주변의 나쁜 냄새에 적응이 되어 구분을 못한다는 사실이었습니다. 페브리즈를 나쁜 냄새(습관 유발인자)를 제거하기 위한 제품으로 광고했지만, 실제로는 고객들이 원하는 것이 아니였습니다.

이를 해결하고자, 좀더 심도 있는 조사를 합니다. 그리고 그 해결책을 "Scottsdale, Ariz." 근처에 사는 여성을 통해 발견합니다. 그녀는 페브리즈를 청소를 마치고 나서 보상심리로 뿌리고 있었습니다. 즉, 그녀는 냄새를 제거하기 위한 페브리즈로 활용하는 것이 아니라, 상쾌한 냄새를 통해 그녀가 청소를 성공적으로 마쳤다는 심리로 뿌리는 것이었습니다.이에 착안해서, P&G는 페브리즈를 청소한 곳에 공기청정 역할을 하는 제품으로 강조했고, 판매는 폭발적으로 증가했습니다. 시간이 좀 지나고 나서는, 페브리즈가 냄새 제거에도 효과가 있다고 언급했습니다.

1980년대 U.C.L.A의 교수 "Alan Andreasen"의 한 연구에 따르면, 사람들은 대부분 의식없이 습관적으로 제품을 구매하는데 이는 사람들의 구매패턴을 분석 및 설득해서 변화를 주는 것이 힘들다는 것을 의미합니다. 하지만, 사람의 큰 변화 시기(대학 졸업, 신규직장에 취업 등)에는 구매패턴에 변화가 생기며, 이를 예측할 수 있다면 소매업자에게 적절한 고객이 됩니다. 예를 들어, 어떤 사람이 결혼한다면, 새로운 종류의 커피를 산다거나, 새로운 집에 간다면 여러 종유릐 시리얼을 구매한다는 등의 행동변화가 생기는 것을 발견할 수 있습니다.

사람의 삶에 영향을 미치는 것중 가장 중요하다고 할 수 잇는 것은 '아이의 탄생'입니다. 아이가 생기면, 그에 맞처 물품을 구매하기 시작합니다.

Target사 사례로 돌아와서, Target사는 고객행동분석을 위해 "Andrew Pole"를 고용합니다. Pole은 고객의 습관을 분석해서 어느 시점에 쿠폰을 발송하는 것이 나은지 알아내고자 했습니다. Pole은 임신부의 2번째 3개월 임신기간(trimester) 초창기에 무취향의 로션을 구매하며, 첫 20주 임신기간에는 칼슘, 마그네슘, 아연과 같은 보조식품을 구매하며, 무향 비누와 탈지면의 엑스트라 큰 가방과 손세척제 등을 구매할 때는 출산일이 가까웠다는 것을 의미합니다.

Pole은 데이터 분석을 통해 임신예측에 활용할 수 있는 25개 제품을 구분했습니다. 그가 임신-예측 모델을 개발(pregnancy-prediction)한 후 1년 후, 어떤 남자가 화난 상태로 Minneapolis 밖의 Target에 찾아옵니다. 그는 자기 딸에게 왜 임신관련 물품 쿠폰을 보내냐며 화를 냈는데, 알고보니 실제로 딸이 임신한 상태란 것을 알게됩니다. 이것이 우리가 알고 있는 Target 사례입니다(참고로 Cue는 크게 장소, 시간, 감정상태, 다른사람 또는 직전 행동으로 구분할 수 있습니다).

Target의 마지막 과제는, 임산부들이 그녀들에 대해 Target이 분석한다는 것을 알게 되는 것에 대한 대응이었습니다. 실제로, 임산부들은 자신들의 정보가 분석된다는 것에 대해 매우 기분 나쁜일로 받아들였습니다. 이를 해결하기 위해, Target은 다른 제품을 섞어 마치 임산관련 제품 및 쿠폰이 랜덤하게 발송된 것으로 구성하여 발송했습니다.

이러한 방법으로 구성된 캠페인은 Target의 "Mom and Baby" 제품 판매을 폭발적으로 이끌었고, 2002년에서 2010년 사이 매출액이 $440억에서 $670억으로 증가했습니다.

http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?pagewanted=all&_r=0

Posted by Curator jsl416
Data Science/Data Mining2014.02.18 10:37

"Introduction to Statistical Learning" (http://www-bcf.usc.edu/~gareth/ISL) 관련 링크.

책인데, PDF로 다운 받을 수 있게 오픈했습니다.

 

데이터에 적합한 통계적 모델을 어떻게 찾는지 궁금한 분들이 보시면 좋을 듯 합니다.. 저도 공부중인데, 잘 정리되있습니다.

수학적인 지식도 메트릭스가 무엇인지 정도까지 알면 되고요.

Posted by Curator jsl416
Data Science/BigData2013.07.01 21:20

   빅데이터는 이제 귀가 닳도록 들어서 어떤 의미로 쓰이는지 널리 알려졌다. 다시 한번 강조하면, 빅데이터는 기존의 데이터 처리 기술로 쉽게 처리할 수 없는 데이터로 간략히 정의할 수 있다.

 

   최근 공기업 프로젝트를 진행하면서, 빅데이터 프로젝트의 범위에 대한 논쟁이 잠시 있었다. 논쟁의 핵심은 데이터 품질 관련한 프로젝트가 빅데이터 프로젝트로 인정받는 프로젝트일까 하는 것이다.

 

   빅데이터를 비즈니스와 관련지어 광의의 의미로 생각하면, 빅데이터를 비즈니스적 가치를 창출해 내는 경영혁신 방안으로 볼 수 있다. 기존에는 보관만 했던 데이터, 또는 기술적인 한계로 쌓지 못하고 버렸던 내부데이터, 실시간으로 볼 수 없었던 외부 오픈데이터를 이제는 기술적으로 처리할 수 있게 되었고, 결과적으로 이러한 환경은 빅데이터를 비즈니스적 가치를 뽑아낼 수 있는 경영혁신 방안 또는 전략적 도구로 인식하게 한다. 엄밀히 따지자면, 데이터 분석을 통한 것이니 분석에 대한 니즈가 한층 높아진 것이다.

 

   위에서 살펴본것과 같이 빅데이터를 통해 비즈니스적 가치를 찾아내는 것을 빅데이터 프로젝트라 본다고 하면, 데이터 품질, 데이터 거버넌스 등으로 불리는 프로젝트는 빅데이터 프로젝트라 볼 수 없을 것이다. 하지만, 빅데이터가 비즈니스적으로 활용 되기까지의 절차를 생각해보면 이는 틀린 말이다.

 

   어느 기업이 빅데이터를 활용해 의미 있는 작업을 하기 위해서는 기업내 인프라 수준 및 인력들의 지식 수준이 그에 걸맞은 수준이어야 한다. 빅데이터를 활용하기 앞서, 기업내 대량의 데이터를 저장하거나 처리할 수 없는 인프라가 없다면 우선적으로 빅데이터 처리 인프라를 도입해야 할 것이다.

 

   빅데이터 처리 인프라가 갖춰지고 나면, 비로서 데이터를 분석 처리 할 수 있는 형태로 데이터를 관리해야 하는데, 이는 데이터 품질이나, 메타데이터 관리, MDM 프로젝트를 통해 가능하다. 다양한 데이터를 특정 주제 영역별로 보기 위해서는 MDM 프로젝트가 도입되어야 할 것이며, 데이터 품질 프로젝트를 통해 각 엔티티나 DB에 맞는 적합한 형식으로 데이터가 저장될 것이다. , 빅데이터를 분석/활용 하기 전 단계에 데이터 품질, 메타데이터 관리, MDM의 프로젝트가 포함되어진다.

 

   빅데이터 프로젝트라 할 때, 빅데이터를 활용하기 전 기본적으로 갖춰야 할 인프라나 데이터 품질 수준을 포함해서 생각한다면, 데이터 품질, 메타데이터 관리, MDM 프로젝트도 빅데이터 프로젝트에 포함되는 개념으로 볼 수 있다. 이러한 기본 준비가 된 기업만이 본격적으로 빅데이터를 통해 의미있는 작업을 찾는 프로젝트를 진행할 수 있다.

 

   결론적으로 빅데이터 프로젝트를 비즈니스에서 의미있는 것을 뽑아내기 위해 데이터 분석체계를 수립하고, 관련 Pilot 프로젝트를 진행하는 단계로 한정적으로 보는 것보다는, 빅데이터 분석을 위해 준비하는 단계까지 포함해서 보는 것도 틀린 말은 아니다.

Posted by Curator jsl416
Data Science/BigData2013.07.01 21:17

   빅데이터 프로젝트 (여기서 빅데이터 프로젝트란 데이터 품질, MDM, 데이터 거버넌스, 분석기반 가치 창출을 포함하는 광의의 프로젝트 개념으로 본다)를 효과적으로 진행하려면, 각종 데이터를 처리할 수 있는 수준의 품질로 유지해야 한다. 분석가능한 수준의 품질로 데이터를 처리(manipulation)하는 것을 데이터 전처리라 한다. 일반적으로, 데이터 분석시 가장 많은 시간을 차지하는 부문이 데이터 전처리 단계이다. 실제 분석하는데 걸리는 총 시간을 100으로 본다면, 데이터 전처리에 약 80의 시간이 걸린다고 본다.

 

   빅데이터를 통해 가치를 창출하는 방법은 크게 2가지 접근 방법으로 볼 수 있다. 하나는 데이터로부터 의미있는 것을 찾는 Bottom-up 방식이고, 다른 하나는 비즈니스적 가치에서 의미를 찾아가는 Top-Down 방식이다.

 

   망망대해의 여러 데이터를 통합/분석해서 어떤 패턴을 찾아내는 것도 의미가 있겠지만, 최근에는 Top-Down 방식으로 빅데이터를 접근하는 방법론이 더 의미가 있다고 본다. 실제로 빅데이터가 IT 수단으로만 여겨지는게 아닌 것은, 빅데이터 분석을 통해 비즈니스적 가치를 창출할 수 있다고 보기 때문이다. 우리나라 검색 포탈로 부동의 1위를 지키고 있는 네이버 검색 엔진 관계자에 따르면, 빅데이터 인프라가 준비된 기업들에게 가장 우선시 될 것은 어떤 문제(Problem)를 빅데이터로 다룰 것인가란 것이다.

 

   현업들이 업무를 수행함에 있어서 또는 새로운 무엇인가 발견하고자 할 때 목적을 알고 이를 데이터 분석으로 대답가능한 질문 형태로 표현하면, 빅데이터는 이를 해결하기 위한 중요한 열쇠 역할을 한다. 한 가지 예를 들자면, 발전설비를 관리함에 있어서 언제 이 장비가 고장나거나 멈출 것인가?’로 어느 현업이 고민하고 있다고 하자. 이 현업은 이 문제를 효과적으로 해결하기 위해 정기적인 점검과 수시 모니터링을 통해 장비의 이상유무를 판단할 것이다. 만약 그 현업이 이를 보다 해결할 방법이 없는지 물어본다면, 빅데이터 활용을 통해 가능하다고 말해줄 수 있다.

 

   보다 효과적인 해결방법은, 우선 관리 대상인 기기에 센서 장비를 장치해 장비의 동작상태 정보를 높은 빈도로 주기적으로 수집하여 저장하는 것이다. 머신데이터는 시간이 지나면 어느 정도 쌓이는데, 고장나는 시점과 관련 데이터의 패턴을 비교해서 의미있는 패턴을 찾아낸다. 가령, 어떤 장비가 평소 A의 시그널을 내다가, 어느날 B 시그널을 낸다면, 이는 기기에 어떤 이상동작이 발생했음을 알리는 신호이고, 이 신호가 발생시에 기기가 이상할 수 있다는 사실을 판단할 수 있다. , 여기서의 빅데이터는 센서데이터로 수집한 주기적인 머신데이터를 말한다.

 

   간략히 현업의 니즈에 따라 빅데이터를 활용하는 방법에 대해 알아보았다. 요약하면, 빅데이터 인프라가 준비된 기업은 비즈니스가 해결하고자 하는 질문 중심으로 데이터를 수집/분석하여 의미있는 것을 찾아내는 것이다.

 

   이러한 절차로 빅데이터 프로젝트를 하기 위해서 선행되어야 하는 프로젝트가 바로 MDM이다. MDMmaster data management의 약자로, 데이터를 여러 공통된 주제로 데이터의 연계성을 파악해, 관련 데이터를 활용 가능한 형태로 만드는 것을 말한다. 예를 들어, 보험사의 경우는 고객, 계약, 상품, 협력사 등의 주제로 데이터를 관리하고, 처리할 수 있는 구조로 만들 수 있다. 고객의 데이터를 보기 위해서는 어떤 데이터가 회사내에 위치해있는지 메타 정보를 통해, 관련 데이터를 쉽고 간편하게 활용할 수 있도록 구조화 하는 것이다. 사전에 데이터를 주제별로 정리하는 작업은 데이터를 보다 간편하게 사용할 수 있도록 꾸미는 데 큰 역할을 할 것이다.

 

   MDM을 통해, 기업내 데이터가 우선적으로 정리 및 관리가 되면, 향후 발생하는 추가 데이터를 보다 효율적으로 저장하고 분석할 수 있다. 다양한 출처의 데이터가 발생한다 할지라도 사전에 정의 해놓은 메타데이터 및 데이터의 규칙에 따라, 데이터를 필요에 따라 저장하고 분석할 수 있는 기반을 MDM이 제공한다. 특히, 질문 중심의 빅데이터 접근 방법에서 MDM 프로젝트는 관련 작업을 효율적이고 체계적으로 수행할 수 있는 기반을 제공하기 때문에, 기업 규모가 커서 다루는 데이터가 많고 다양할수록 MDM 프로젝트는 빅데이터 활용 프로젝트에 앞서 반드시 선행되어야 한다.

 

   아직 빅데이터 분석을 통해 효과를 본 기업은 많지 않다. 앞으로는 다양한 종류의 데이터 분석을 통해, 어떤 의미있는 것을 찾는 기업이 점점 나타날 것이다. 급히 빅데이터 관련 솔루션을 도입하기 보다는, 기업의 각 상황을 인지하고, 빅데이터 시대를 준비해나가야 할 것이며, 그중 MDM은 그 기반을 닦는 중요한 역할을 할 것이다.

Posted by Curator jsl416
Data Science/Analytics2013.05.21 09:19

   네이버 트랜드 (trend.naver.com)는 네이버에서 검색되는 키워드를 기준으로 검색량을 시계열 그래프 형태로 보여준다. 예를 들어, 최근 미국 메이저 리그에서 활약을 하고 있는 류현진을 네이버 트랜드 검색해보면, 네이버에서 류현진으로 검색된 양 추이를 알 수 있다. PC에서 검색된 검색어의 경우는 20071월부터, 모바일의 경우는 20101월부터의 검색 결과를 보여준다. 또한, 검색이 크게 증가한 지점에서 뉴스 클릭이 집중된 뉴스는 관련 뉴스 (결과 그래프 하단)로 보여준다. 그래프의 검색수치는 최대검색량을 100으로 환산한 비율로 계산한 값이며, 0은 검색량이 없거나 충분한 검색량이 없다는 의미이다.

 

   네이버 트랜드에서 키워드는 검색어 입력 창 우측의 + 버튼을 클릭하여 최대 5개의 검색어를 입력할 수 있고, 입력한 여러 검색어의 검색 추이를 한 번에 비교해 볼 수 있다. 입력된 검색어는 공백제거와 대문자 소문자 변환이 이뤄진다. 예를 들어, '모차르트검색 결과는 중간에 공백이 포함된 모차 르트검색어와 동일 검색어로 처리되며, ‘네이버블로그로 조회 시 네이버 블로그’, ‘네이버블로그가 동일하게 'nhn' 조회 시에는 ‘NHN’‘nhn’의 검색어가 동일하게 처리된다. 맞춤법 오류 및 다른 표기로 기입한 단어는 다른 검색어로 처리된다: ‘모짜르트는 다른 검색어로 처리된다.

 

참조 : 네이버 트렌드 FAQ

 

Posted by Curator jsl416
Data Science/Analytics2013.04.28 23:44

2012 IT의 화두 중 하나는 단연 빅데이터이다. 기업은 데이터가 기하급수적으로 많아지면서 어떻게 하면 늘어나는 데이터를 잘 활용할 수 있을까 고민하게 되었고, 데이터를 활용하여 기업에게 인사이트를 제공할 수 있는 사람을 가리켜 데이터 사이언티스트라고 부르고 있다.

데이터 사이언티스트는 한국말로 번역하면 데이터 과학자이다. 만약 데이터 과학자라고 불리게 된다면, 과학자의 한 명으로 인정받는 것이다.

최근에 과학자로서의 자세라는 글을 보게 되었다. 예전 학부 수업 당시 교수님이 과학자로서 가져야 할 자세라며 꼭 읽어보라고 하며 주신 글이다. 데이터 사이언티스트에 관심이 많은 이 시점에 과학자로서의 자세라는 글은 흥미로운 소재였다. 아래는 영문으로 적힌 글을 의역한 내용이다.

 

o 과학자는 기존에 있던 이론을 비판적으로 볼 수 있어야 한다. 예를 들어, Van Mannen의 명성에 의해 많은 과학자들이 은하계에서 성운의 위치를 비판 없이 받아들였는데, 사실 이것은 틀렸다.

 

o 과학자가 올바른 결정을 내리기 위한 대부분의 지식과 스킬은 개인적인 경험과 다른 과학자와의 상호작용으로부터 나온다. 이는 과학자의 작업은 홀로 하는 것이 아니라는 말이다.

 

o 가설은 엉뚱한 결과가 나오지 않도록 견고하게 짜여야 한다. 좋은 가설은 개별적인 관찰을 통합할 수 있어야 한다. 또한 중요한 점은 가설의 단순함(simplicity)이며, 다른 정제된 말로 표현하자면 고상(elegance)함이다.

 

o 과학에서부터 분리될 수 없고, 또 그래서는 안 되는 것은 가치이다. 열심히 연구하고자 하는 것은 인간적인 가치로부터 나온다. 또한 정직함과 객관성이 유지되고 관리되어야 한다.

 

o 과학분야에서 인용(citations)은 보상의 하나이다. 다른 사람들의 작업을 습관적으로 인용을 하지 않는 자들은 동료들과의 유대에서 멀어질 수 있다.

 

o 새로운 법칙을 발견하고자 하는 욕망은 증거를 무시하는 행동을 낳기도 한다.

 

o 정직한 오류와, 부주의로 인한 오류에 이어 3번째 오류는 속임(deception)에 의한 오류이다. 데이터나 결과를 날조(fabrication), 변조(falsification), 그리고 다른 사람의 작업을 정당한 인용 없이 사용하는 표절(plagiarism)이 있다. 이 모든 게 과학의 중심가치에 반하는 행위이다.

 

이상 과학자로서의 자세에 대해 알아보았다.

 

데이터 사이언티스트라면 본인의 업무를 수행할 때 위의 내용을 숙지해야 할 것이다. 예를 들어, 데이터 사이언티스트가 어떤 기업으로부터 색다른 비즈니스 기회를 찾아달라는 작업을 부탁 받으면, /그녀는 분석을 통해 기업에게 의미 있는 것을 찾아내기 위해 노력할 것이다. 하지만 아무리 분석을 해도 기업에게 유용한 정보가 나오지 않고 상식적인 수준에 그친다면, 작업을 하게 된 데이터 사이언티스트는 초조해질 수 밖에 없을 것이다. 그럴 때 상기해야 할 것이 과학자로서의 자세이다. 본인이 가진 가설에 대해 충분한 분석을 하고, 다양한 시도를 해보았지만, 기존과 다른 의미 있는 결과는 없었다는 것을 문서화 하고 발표할 수 있는 용기가 그들에게 요구된다.

또한, 그들은 기존에 상식적으로 통용되는 것에 대해 의문을 갖고 분석하는 습관을 가져야 할 것이다. 사람들이 상식적으로 알고 있는 것은 분석에 의해 명확해질 수 있다. 카이스트의 장영재 교수께서 세미나에서 소개해준 사례를 예로 들자면, 박빙의 승부에서 번트를 시도하는 것이 과연 점수를 낼 확률이 높을지에 관한 것이다. 상식적으로 생각하면, 번트를 통해 1점을 낼 확률이 다른 방법보다 더 높아 보인다. 이를 직접 분석한 결과를 보면, 무사 1루에서 번트 없이 1점 날 확률은 0.4, 무사 1루에서 번트를 시도했을 때 1점 날 확률은 0.417 0.017로 높다. , 확률적으로 아주 큰 차이가 나는 것은 아니지만, 실제로 번트를 통해 1점을 낼 확률이 더 높다.

앞으로 데이터가 많아지면 많아질수록 기업에게 데이터 사이언티스트는 없어서는 안 될 존재가 될 것이 분명하다. 그들은 과학자로서의 기본소양을 항상 숙지하고 업무를 수행해서 과학자로도 인정받는 사람이 되어야겠다.

Posted by Curator jsl416
Data Science/Analytics2013.04.16 02:37

  소셜 미디어의 등장으로 마케팅은 이제 전통적인 마케팅 영역에 더해 온라인 부문인 소셜 네트워크도 포함해서 봐야한다.

 

    마케팅 효과측정은 크게 정성적, 정량적으로 구분 지을 수 있다. 정성적에는 관계, 신뢰, 콘텐츠를 포함한다. 정량적 측정은 크게 네트워크 및 콘텐츠를 기준으로 하며 4가지 측정부문 UV(user view), PV(page view), IMP(Impression), CTR(click to through)가 있다.

 

    인지 -> 판단 -> 행동의 행동패턴에서 기존 마케팅은 인지 부분을 담당했다면, 새로운 마케팅영역은 판단 부문에 영향을 미친다.

 

   예전에 온라인상 인간행동의 모델은 AIDMA(Attention, Interest, Desire, Measure, Action) 모델을 따랐지만, 이제는 AISAS(Attention, Interest, Search, Action, Share) 모델로 변했고, 더 나아가 SearchAction 사이에 Compare가 들어갈 수 있고, 소셜 네트워크가 가미되면서 Viral(입소문) 부문도 추가 된다.

 

    앞으로의 온라인 분석대상은 청중, 영향력, 참여 및 대화로 볼 수 있다. 리드 매니지먼트에서는 내부고객뿐만 아니라 접촉자 및 단순 방문자까지 포함해서 관리하는 것으로 볼 수도 있다. 또한, 빅 마우스가 중요하다.

 

   소셜 성과분석의 기준은 세부적으로 구분해서 볼 수 있다. 수립된 다양한 성과분석 기준에서 어떤 도구를 활용해서 측정할 수 있는지 정리할 필요가 있다. 예를 들어, Google Analytics와 같은 도구를 통해 특정 키워드에 대한 빈도 분석을 할 수 있다.

 

   소셜 분석에는 크게 자체적으로 제공하는 정형화된 프레임워크 분석과 API를 통하여, Query와 데이터를 끌고 와 분석하는 두 가지 방법이 있다. 다른 말로 표현하면, 소셜 분석은 페이스북의 좋아요를 누른 팬 (내부 고객) 대상으로 하는 경우가 하나 있고, 미리 키워드를 세팅하고 그에 맞는 정보를 긁어모은 데이터로 기반하여 분석하는 형태가 있다. 예를 들어, 페이스북의 경우 자체 프레임워크로 제공하는 insights 분석이 있다. (사이트는 www.facebook.com/insights 이다.) 페이스북에서 자체적으로 제공하는 분석 프레임워크 말고, 페이스북에 관한 다양한 관점의 분석 정보를 제공해주는 Socialbakers.com 사이트도 있다.

Posted by Curator jsl416