Data Science/BigData2014.02.18 17:16

"How Companies Learn Your Secrets"란 제목의 2012년 2월 16일자 기사입니다. 내용이 좀 긴데, 인사이트 및 요약은 다음과 같습니다.

 

  • Target사는 고객 정보를 "Guest ID number"를 통해 관리하며, 고객의 행동정보와 관련 인구통계학적 정보를 수집 또는 구매하여 분석한다.
  • Target은 고객의 구매습관을 분석하여, 적절한 제품광고/쿠폰 발송시기를 예측하고자 했다.
    1. 관련연구: 습관은 뇌에서 크게 "cue(유발인자) --> routine(일상행동) --> reward(보상)"의 3단계를 거친다. 즉, 고객의 습관을 분석하여 습관 유발인자(cue)에 영향을 미쳐, 제품판매를 촉진할 수 있다.
    2. 사람들의 구매패턴은 보통 의식없이 진행되기 때문에 일상적인 구매형태를 바꾸기는 매우 어렵다. 하지만, 인생의 중요한 시기(학교 졸업, 아이의 탄생 등)에는 구매패턴이 상대적으로 변화하며, 이를 예측할 수 있으면 제품의 매출 증대를 이룰 수 있다.
    3. Target은 아이를 임신한 임산부에게 어떻게 관련 제품을 판매할까 고민하게 된다
  • Target사는 데이터 분석을 통해, 25개 제품을 기반으로 한 "임신예측(pregnancy-prediction)" 모델을 개발했다. 제품홍보 및 쿠폰발송시에는 임신관련 제품을 다른 제품과 섞어 진행했고, 이는 큰 매출증대로 이끌었다.


자세한 사항은 아래 기사 및 요약 번역본 참고하세요.
------------------------------------------------
흥미로운 빅데이터 분석의 사례로 미국 유통업체인 'Target'이 있습니다. 'Target'은 자체적으로 수집하는 데이터 기반으로 아버지가 모르고 있던 딸 임신사실을 분석 짐작하고, 임신부 관련 쿠폰을 발송했습니다. 아래 링크의 기사는 'Target'에서 어떻게 이런 사실을 알아냈는지, 보다 심도있게 분석한 기사라 보시면 되겠습니다.

참고로 이 기사를 쓴 사람은 "The Power of Habit"이란 책을 쓴 사람으로, 습관에 대한 관심과 지식이 많은 사람으로 보입니다.

실제로 'Target'은 고객에 대한 모든 정보를 수집합니다. 내부적으로 고객마다 "Guest ID number"를 부여하고, 고객이 하는 행동마다 이 정보와 연관해서 데이터를 저장합니다. 예를 들어, 어떤 것을 구매했는지, 신용카드를 사용 여부, 쿠폰을 사용여부, 설문조사 작성여부, 환불을 요구했는지, 헬프라인에 연락했는지 등 모든 행동정보를 Guest ID에 연관해서 저장합니다.

또한, 인국통계학적 정보(나이, 결혼유무, 자녀유무, 어떤 동네에 사는지, 가게까지 가는데 걸리는 시간, 예측한 수입액, 최근 이사했는지 여부, 어떤 종류의 신용카드를 지갑에 갖고 다니는지, 어떤 웹사이틀 방문하는지 등)도 연관해서 기록합니다. Target은 또한 민족성, 직장 경력, 어떤 매거진을 읽는지, 부도 또는 이혼여부, 집 구매/판매년도, 어느곳의 대학에 갔는지 등에 대한 데이터도 구매할 수 있습니다(단, Target은 어떤 인구학적 데이터를 모으고 구매하는지 명확히 밝히지 않았습니다).

Target은 이러한 데이터를 활용해 "행동 연구(behavioral research)"기반으로 분석을 수행합니다. 여기서 습관에 대한 연구가 언급됩니다. 사람들의 의사결정중 약 45%는 우리가 어떤 의식없이 습관에 의해 행해집니다(듀크 대학 연구결과) 습관은 뇌에서 크게 3가지 단계를 거칩니다. "cue --> routine --> reward"란 3단계를 거치는 사이클을 거칩니다. cue는 어떤 행동을 유발하는 인자인데, 이는 밀리세컨드 일 수 있습니다.

...(중략)

습관을 활용한 사례중 P&G가 개발해서 판매하는 페브리즈(Febreze)가 있습니다. 페브리즈는 처음에 나쁜 냄새를 제거하기 위해 개발(by Stimson and his team)되었고, 광고를 합니다. 어떤 여자가 레스토랑에 앉아있는데, 담배냄새가 베기는데 그녀의 친구가 페브리즈를 권해줍니다. 또 다른 광고에서는 "Sophie"란 개가 침상에 앉아 가구에 "Sophie" 냄새가 나는데, 페브리즈를 통해서 냄새가 사라진다는 광고였습니다. 대박이 날 줄 알았던 페브리즈는 판매가 매우 저조했습니다. 2달 뒤에는 거의 판매가 없는 상태(dud)에 이릅니다.

이를 해결하고자 고객들에 대한 심층 인터뷰를 진행합니다. 그 결과, 페브리즈의 판매실패원인은 사람들은 주변의 나쁜 냄새에 적응이 되어 구분을 못한다는 사실이었습니다. 페브리즈를 나쁜 냄새(습관 유발인자)를 제거하기 위한 제품으로 광고했지만, 실제로는 고객들이 원하는 것이 아니였습니다.

이를 해결하고자, 좀더 심도 있는 조사를 합니다. 그리고 그 해결책을 "Scottsdale, Ariz." 근처에 사는 여성을 통해 발견합니다. 그녀는 페브리즈를 청소를 마치고 나서 보상심리로 뿌리고 있었습니다. 즉, 그녀는 냄새를 제거하기 위한 페브리즈로 활용하는 것이 아니라, 상쾌한 냄새를 통해 그녀가 청소를 성공적으로 마쳤다는 심리로 뿌리는 것이었습니다.이에 착안해서, P&G는 페브리즈를 청소한 곳에 공기청정 역할을 하는 제품으로 강조했고, 판매는 폭발적으로 증가했습니다. 시간이 좀 지나고 나서는, 페브리즈가 냄새 제거에도 효과가 있다고 언급했습니다.

1980년대 U.C.L.A의 교수 "Alan Andreasen"의 한 연구에 따르면, 사람들은 대부분 의식없이 습관적으로 제품을 구매하는데 이는 사람들의 구매패턴을 분석 및 설득해서 변화를 주는 것이 힘들다는 것을 의미합니다. 하지만, 사람의 큰 변화 시기(대학 졸업, 신규직장에 취업 등)에는 구매패턴에 변화가 생기며, 이를 예측할 수 있다면 소매업자에게 적절한 고객이 됩니다. 예를 들어, 어떤 사람이 결혼한다면, 새로운 종류의 커피를 산다거나, 새로운 집에 간다면 여러 종유릐 시리얼을 구매한다는 등의 행동변화가 생기는 것을 발견할 수 있습니다.

사람의 삶에 영향을 미치는 것중 가장 중요하다고 할 수 잇는 것은 '아이의 탄생'입니다. 아이가 생기면, 그에 맞처 물품을 구매하기 시작합니다.

Target사 사례로 돌아와서, Target사는 고객행동분석을 위해 "Andrew Pole"를 고용합니다. Pole은 고객의 습관을 분석해서 어느 시점에 쿠폰을 발송하는 것이 나은지 알아내고자 했습니다. Pole은 임신부의 2번째 3개월 임신기간(trimester) 초창기에 무취향의 로션을 구매하며, 첫 20주 임신기간에는 칼슘, 마그네슘, 아연과 같은 보조식품을 구매하며, 무향 비누와 탈지면의 엑스트라 큰 가방과 손세척제 등을 구매할 때는 출산일이 가까웠다는 것을 의미합니다.

Pole은 데이터 분석을 통해 임신예측에 활용할 수 있는 25개 제품을 구분했습니다. 그가 임신-예측 모델을 개발(pregnancy-prediction)한 후 1년 후, 어떤 남자가 화난 상태로 Minneapolis 밖의 Target에 찾아옵니다. 그는 자기 딸에게 왜 임신관련 물품 쿠폰을 보내냐며 화를 냈는데, 알고보니 실제로 딸이 임신한 상태란 것을 알게됩니다. 이것이 우리가 알고 있는 Target 사례입니다(참고로 Cue는 크게 장소, 시간, 감정상태, 다른사람 또는 직전 행동으로 구분할 수 있습니다).

Target의 마지막 과제는, 임산부들이 그녀들에 대해 Target이 분석한다는 것을 알게 되는 것에 대한 대응이었습니다. 실제로, 임산부들은 자신들의 정보가 분석된다는 것에 대해 매우 기분 나쁜일로 받아들였습니다. 이를 해결하기 위해, Target은 다른 제품을 섞어 마치 임산관련 제품 및 쿠폰이 랜덤하게 발송된 것으로 구성하여 발송했습니다.

이러한 방법으로 구성된 캠페인은 Target의 "Mom and Baby" 제품 판매을 폭발적으로 이끌었고, 2002년에서 2010년 사이 매출액이 $440억에서 $670억으로 증가했습니다.

http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?pagewanted=all&_r=0

Posted by Insight jsl416
Data Science/BigData2013.07.01 21:20

   빅데이터는 이제 귀가 닳도록 들어서 어떤 의미로 쓰이는지 널리 알려졌다. 다시 한번 강조하면, 빅데이터는 기존의 데이터 처리 기술로 쉽게 처리할 수 없는 데이터로 간략히 정의할 수 있다.

 

   최근 공기업 프로젝트를 진행하면서, 빅데이터 프로젝트의 범위에 대한 논쟁이 잠시 있었다. 논쟁의 핵심은 데이터 품질 관련한 프로젝트가 빅데이터 프로젝트로 인정받는 프로젝트일까 하는 것이다.

 

   빅데이터를 비즈니스와 관련지어 광의의 의미로 생각하면, 빅데이터를 비즈니스적 가치를 창출해 내는 경영혁신 방안으로 볼 수 있다. 기존에는 보관만 했던 데이터, 또는 기술적인 한계로 쌓지 못하고 버렸던 내부데이터, 실시간으로 볼 수 없었던 외부 오픈데이터를 이제는 기술적으로 처리할 수 있게 되었고, 결과적으로 이러한 환경은 빅데이터를 비즈니스적 가치를 뽑아낼 수 있는 경영혁신 방안 또는 전략적 도구로 인식하게 한다. 엄밀히 따지자면, 데이터 분석을 통한 것이니 분석에 대한 니즈가 한층 높아진 것이다.

 

   위에서 살펴본것과 같이 빅데이터를 통해 비즈니스적 가치를 찾아내는 것을 빅데이터 프로젝트라 본다고 하면, 데이터 품질, 데이터 거버넌스 등으로 불리는 프로젝트는 빅데이터 프로젝트라 볼 수 없을 것이다. 하지만, 빅데이터가 비즈니스적으로 활용 되기까지의 절차를 생각해보면 이는 틀린 말이다.

 

   어느 기업이 빅데이터를 활용해 의미 있는 작업을 하기 위해서는 기업내 인프라 수준 및 인력들의 지식 수준이 그에 걸맞은 수준이어야 한다. 빅데이터를 활용하기 앞서, 기업내 대량의 데이터를 저장하거나 처리할 수 없는 인프라가 없다면 우선적으로 빅데이터 처리 인프라를 도입해야 할 것이다.

 

   빅데이터 처리 인프라가 갖춰지고 나면, 비로서 데이터를 분석 처리 할 수 있는 형태로 데이터를 관리해야 하는데, 이는 데이터 품질이나, 메타데이터 관리, MDM 프로젝트를 통해 가능하다. 다양한 데이터를 특정 주제 영역별로 보기 위해서는 MDM 프로젝트가 도입되어야 할 것이며, 데이터 품질 프로젝트를 통해 각 엔티티나 DB에 맞는 적합한 형식으로 데이터가 저장될 것이다. , 빅데이터를 분석/활용 하기 전 단계에 데이터 품질, 메타데이터 관리, MDM의 프로젝트가 포함되어진다.

 

   빅데이터 프로젝트라 할 때, 빅데이터를 활용하기 전 기본적으로 갖춰야 할 인프라나 데이터 품질 수준을 포함해서 생각한다면, 데이터 품질, 메타데이터 관리, MDM 프로젝트도 빅데이터 프로젝트에 포함되는 개념으로 볼 수 있다. 이러한 기본 준비가 된 기업만이 본격적으로 빅데이터를 통해 의미있는 작업을 찾는 프로젝트를 진행할 수 있다.

 

   결론적으로 빅데이터 프로젝트를 비즈니스에서 의미있는 것을 뽑아내기 위해 데이터 분석체계를 수립하고, 관련 Pilot 프로젝트를 진행하는 단계로 한정적으로 보는 것보다는, 빅데이터 분석을 위해 준비하는 단계까지 포함해서 보는 것도 틀린 말은 아니다.

Posted by Insight jsl416
Data Science/BigData2013.07.01 21:17

   빅데이터 프로젝트 (여기서 빅데이터 프로젝트란 데이터 품질, MDM, 데이터 거버넌스, 분석기반 가치 창출을 포함하는 광의의 프로젝트 개념으로 본다)를 효과적으로 진행하려면, 각종 데이터를 처리할 수 있는 수준의 품질로 유지해야 한다. 분석가능한 수준의 품질로 데이터를 처리(manipulation)하는 것을 데이터 전처리라 한다. 일반적으로, 데이터 분석시 가장 많은 시간을 차지하는 부문이 데이터 전처리 단계이다. 실제 분석하는데 걸리는 총 시간을 100으로 본다면, 데이터 전처리에 약 80의 시간이 걸린다고 본다.

 

   빅데이터를 통해 가치를 창출하는 방법은 크게 2가지 접근 방법으로 볼 수 있다. 하나는 데이터로부터 의미있는 것을 찾는 Bottom-up 방식이고, 다른 하나는 비즈니스적 가치에서 의미를 찾아가는 Top-Down 방식이다.

 

   망망대해의 여러 데이터를 통합/분석해서 어떤 패턴을 찾아내는 것도 의미가 있겠지만, 최근에는 Top-Down 방식으로 빅데이터를 접근하는 방법론이 더 의미가 있다고 본다. 실제로 빅데이터가 IT 수단으로만 여겨지는게 아닌 것은, 빅데이터 분석을 통해 비즈니스적 가치를 창출할 수 있다고 보기 때문이다. 우리나라 검색 포탈로 부동의 1위를 지키고 있는 네이버 검색 엔진 관계자에 따르면, 빅데이터 인프라가 준비된 기업들에게 가장 우선시 될 것은 어떤 문제(Problem)를 빅데이터로 다룰 것인가란 것이다.

 

   현업들이 업무를 수행함에 있어서 또는 새로운 무엇인가 발견하고자 할 때 목적을 알고 이를 데이터 분석으로 대답가능한 질문 형태로 표현하면, 빅데이터는 이를 해결하기 위한 중요한 열쇠 역할을 한다. 한 가지 예를 들자면, 발전설비를 관리함에 있어서 언제 이 장비가 고장나거나 멈출 것인가?’로 어느 현업이 고민하고 있다고 하자. 이 현업은 이 문제를 효과적으로 해결하기 위해 정기적인 점검과 수시 모니터링을 통해 장비의 이상유무를 판단할 것이다. 만약 그 현업이 이를 보다 해결할 방법이 없는지 물어본다면, 빅데이터 활용을 통해 가능하다고 말해줄 수 있다.

 

   보다 효과적인 해결방법은, 우선 관리 대상인 기기에 센서 장비를 장치해 장비의 동작상태 정보를 높은 빈도로 주기적으로 수집하여 저장하는 것이다. 머신데이터는 시간이 지나면 어느 정도 쌓이는데, 고장나는 시점과 관련 데이터의 패턴을 비교해서 의미있는 패턴을 찾아낸다. 가령, 어떤 장비가 평소 A의 시그널을 내다가, 어느날 B 시그널을 낸다면, 이는 기기에 어떤 이상동작이 발생했음을 알리는 신호이고, 이 신호가 발생시에 기기가 이상할 수 있다는 사실을 판단할 수 있다. , 여기서의 빅데이터는 센서데이터로 수집한 주기적인 머신데이터를 말한다.

 

   간략히 현업의 니즈에 따라 빅데이터를 활용하는 방법에 대해 알아보았다. 요약하면, 빅데이터 인프라가 준비된 기업은 비즈니스가 해결하고자 하는 질문 중심으로 데이터를 수집/분석하여 의미있는 것을 찾아내는 것이다.

 

   이러한 절차로 빅데이터 프로젝트를 하기 위해서 선행되어야 하는 프로젝트가 바로 MDM이다. MDMmaster data management의 약자로, 데이터를 여러 공통된 주제로 데이터의 연계성을 파악해, 관련 데이터를 활용 가능한 형태로 만드는 것을 말한다. 예를 들어, 보험사의 경우는 고객, 계약, 상품, 협력사 등의 주제로 데이터를 관리하고, 처리할 수 있는 구조로 만들 수 있다. 고객의 데이터를 보기 위해서는 어떤 데이터가 회사내에 위치해있는지 메타 정보를 통해, 관련 데이터를 쉽고 간편하게 활용할 수 있도록 구조화 하는 것이다. 사전에 데이터를 주제별로 정리하는 작업은 데이터를 보다 간편하게 사용할 수 있도록 꾸미는 데 큰 역할을 할 것이다.

 

   MDM을 통해, 기업내 데이터가 우선적으로 정리 및 관리가 되면, 향후 발생하는 추가 데이터를 보다 효율적으로 저장하고 분석할 수 있다. 다양한 출처의 데이터가 발생한다 할지라도 사전에 정의 해놓은 메타데이터 및 데이터의 규칙에 따라, 데이터를 필요에 따라 저장하고 분석할 수 있는 기반을 MDM이 제공한다. 특히, 질문 중심의 빅데이터 접근 방법에서 MDM 프로젝트는 관련 작업을 효율적이고 체계적으로 수행할 수 있는 기반을 제공하기 때문에, 기업 규모가 커서 다루는 데이터가 많고 다양할수록 MDM 프로젝트는 빅데이터 활용 프로젝트에 앞서 반드시 선행되어야 한다.

 

   아직 빅데이터 분석을 통해 효과를 본 기업은 많지 않다. 앞으로는 다양한 종류의 데이터 분석을 통해, 어떤 의미있는 것을 찾는 기업이 점점 나타날 것이다. 급히 빅데이터 관련 솔루션을 도입하기 보다는, 기업의 각 상황을 인지하고, 빅데이터 시대를 준비해나가야 할 것이며, 그중 MDM은 그 기반을 닦는 중요한 역할을 할 것이다.

Posted by Insight jsl416
Data Science/BigData2012.11.17 00:23

빅데이터는 새롭지 않다. 빅데이터는 기존과 다른 완전히 새로운 이론이나 원칙이 아니며, 현 시대의 현상이다. 빅데이터 시대에서도 데이터를 분석 하는 방법은 기존과 동일하다. , 이제는 다양한 데이터를 빠르게 분석해야 하는 상황에 왔다 - 이러한 이유로 데이터의 패턴을 쉽고 빠르게 표현할 수 있는 시각화가 중요해지고 있는 상황이다.

빅데이터란 무엇일까?

빅데이터는 흔히 3V로 정의할 수 있다. 여기서 3V Variety(종류), Velocity(속도), Volume(크기)를 말한다. 다양한 종류의 데이터가 빠른 속도로 생성되어 엄청난 크기의 데이터를 만들어 내서, 기존의 데이터 처리 기술로 저장, 처리, 관리, 분석하기 힘든 데이터를 빅데이터라 할 수 있다.

빅데이터 시대에서 종류(Variety)가 다양하게 된 계기는 비구조적 데이터 (Multi-structured)가 모바일, 2.0, SNS 등에서 발생하는 것이 큰 원인이 되었다. 이러한 비구조적인 데이터는 현재 생성되는 데이터의 용량 대비 80% 정도라고 한다.

데이터가 생성되는 속도(Velocity)는 가히 놀랍다. 작년까지 기업이 관리하는 데이터가 1.8 ZB였다면, 2015년에는 이의 4배가 넘는 7.9 ZB 크기의 데이터가 생성/관리된다고 한다. ZB는 제타 바이트 Zetta byte의 약자로, 1ZB 바이트는 현재 하드디스크에 많이 쓰이는 1TB(테라 바이트)의 백 만배에 달하는 숫자이다.

위의 맥락과 함께, 과거보다 빠른 속도로 생성되는 데이터의 축적은 데이터의 크기(Volume)를 기하급수적으로 증가시키는 결과를 낳았고 앞으로 계속될 것이다.

빅데이터란 개념이 생겨날 수 있게 된 계기는 무엇일까? 가장 큰 주요 원인으로는 기술의 발전을 들 수 있다. 스마트폰의 대중화, SNS의 보편화, 하드디스크 가격의 저하, 컴퓨터 CPU의 속도 향상 및 가격 하락 등, 이 모든 것이 빅데이터에 기여하고 있는데, 이는 기술의 발전으로 가능하게 되었다.

그렇다면, 빅데이터 시대 전후를 기준으로 달라진 점은 무엇일까?

첫 번째로 데이터의 처리 속도에 있다. 데이터를 저장 및 관리할 수 있는 속도가 기술의 발전으로 엄청나게 빨라졌다. 또한, 인메모리(In-memory) 방식의 데이터 분석이 가능해지고 있기 때문에 분석 결과를 보다 빨리 볼 수 있게 되었다. 데이터 분석 도구인 R SAS 모두 인메모리 방식을 지원하여, 데이터의 처리 속도를 확연히 향상시켰다. 데이터 분석을 시각화를 통해 보다 편리하게 분석하게 해주는 Spotfire Tableau 역시 이러한 인메모리 기능을 도입하는 추세이다. 따라서 데이터를 처리 속도가 눈에 띄게 향상된다. 컴퓨터 하드디스크를 SSD로 바꾸면, 컴퓨터 부팅 속도 및 게임 실행 속도가 확연히 빨라지는 것과 같은 이치이다.

두 번째는 기존보다 다양하고 많아진 데이터를 저장 및 분석함으로써, 예측 및 분석결과가 보다 정확해질 수 있다. 예를 들어, 기존에는 고객 행동에 대한 패턴을 알아보기 위해서는 고객이 제공하는 설문 결과에 의존하였지만, 지금은 불특정 다수의 고객이 발생하는 소셜 데이터, 다수의 고객이 홈페이지에서 생성하는 로그 데이터, 다양한 고객의 의견을 접수하는 콜센터 데이터 등을 통해 다수 고객의 성향 및 행동 범위를 보다 정확하게 파악하는 것이 가능해졌다. 보안에 유의하면서 얻어진 다양한 데이터는 고객 행동 유형을 파악하게 하는데 큰 기여를 할 수 있다.

결론적으로, 향상된 데이터 처리 속도 기반에서 다양한 데이터를 볼 수 있는 능력과 이를 분석해서 어떤 가치 있는 결과를 얻을 수 있다면, 비로서 빅데이터 시대가 기존의 데이터 분석시대와 다른 의미를 가질 수 있을 것이다. 또한, 이러한 일을 하는 사람들은 데이터 과학자(Data Scientist)로 인정받고 활동할 수 있는 시대가 온 것이다.

2012.11.17. JS

Posted by Insight jsl416
Data Science/Seminar2012.03.23 10:29

2011년 12월 2일(금) 오전에 참석했던 "빅 데이터 시대의 데이터마이닝 역할" 학술대회 자료 내용 입니다.
------------------------------------------------------------------------------------
금일 오전에 "빅 데이터 시대의 데이터마이닝 역할" 학술대회에 참석하였습니다.
오전 세미나는 3가지 분야에 관한 내용이였습니다.


1) Recommender System with Big Data 세션은 미국 현지 Yahoo Research에서 근무하다 삼성전자 DMC 연수소 재직중인 박승택 박사가 발표해주셨습니다. 추천 시스템은 현재 삼성전자 쪽에서 많은 연구를 하고 있다고 합니다. 1992년 부터 시작된 추천 시스템이라는 것이 현재까지 약 10년동안 정확성은 발전한 것이 보이지 않는다라고 하셨습니다. 소셜화되는 관점이 이젠 부각되어야 한다는 것을 말씀하셨고요. Hadoop이란 Open Source에 대한 언급이 있었고, Map/Reduce라는 것에 대한 언급이 있었습니다. Map --> Shuffle --> Combine --> Reduce라는 순으로 데이터 마이닝이 발생한다고 하였고, 활용 할 수 있는 타스크는 명확히 정해져 있어 구현 가능/불가능 한 것들이 정해져 있다고 했습니다. 그리고 야후에서 쓰는 Mad6라는 영화 추천 메뉴에 대한 얘기를 했습니다. 웹페이지 위치에 따라 클릭율이 다르다라는 것, 사용자 그룹별로 페이지 뷰를 그래프화 한 장표에 의하면 사용자 그룹별로 페이지 뷰에 관한 일정 패턴이 존재한다는 것 등을 알려주셨습니다. Youtube의 60%의 클릭이 추천에 의해 된다는 통계적 사실도 흥미로웠습니다.

2) 두번째 세션은 Data Science란 제목으로 서울대 이영조 교수님이 발표해 주셨는데요. 데이터 양이 2년마다 2배 증가하고 있으며, 2007년 기준으로 모든 데이터를 수용할 수 있는 물리적 크기를 벗어낫다고 언급하였습니다. 통계학 용어 중에 우도라는 것이 있다는 것이 기억에 남았습니다. 또한, Data Science 학회 설립을 추진중이라고 하셨고요.

3) 세번째는 헬스 아바타란 제목으로 서울대 의대 김주한 교수님이 발표해주셨습니다. 예전에는 메티컬 관련 처리가 수동으로 되던 것이 컴퓨터로 넘어와, 현재의 단계까지 왔다고 말씀하셨습니다. 유전자 데이터 자료가 언젠가는 $30로 얻을 수 있다는 얘기가 있다고 하셨는데, 이게 미래에는 불가능하지 않을 수 있다고 하셨습니다. 의료는 Data Intensive보다는 Information Intensive라고 언급하였습니다. 그리고 유전자 분야는 가설없이, 데이터가 먼저 나와 활용이 된다고 하셨는데요. 스마트폰에 대한 언급도 하시면서, 스마트폰을 활용하여 개인의 라이프로그, 진료기록, 유전자 정보를 토대로 각자의 건강을 검진할 수 있는 '헬스 아바타' 모델에 대해 설명해주셨습니다.

Posted by Insight jsl416