#DevGround 2019 - #1 Ai 와 데이터 과학 참여

2019.06.27

한빛미디어 #DevGround 2019 - #1 AI와 데이터 과학 컨퍼런스에 참여했다.

1일차, 2일차가 있었지만 아쉽게도 1일차만 진행하였다.

-DevGround 2019의 첫 세션 스케줄

내가 참여한 세션들 중 몇 세션만 간략하게 정리하면

#데이터와 머신러닝이 비즈니스와 만날 때 발생할 수 있는 비극들

위 세션에서는 실전에 사용 가능한 데이터와 데이터 분석으로 사업을 하며 겪은 이슈들을 들어보았다.

실제로 활용 가능한 데이터의 양은

쇼핑몰이라고 가정했을 때 추천 기준은 100만 다운로드 중 20만을 사용하고

광고 기준은 다운로드 1000만 넘겨야 200만 데이터를 사용 가능하다

그리고 각 유저마다 수십 - 수백 건의 서비스 사용 기록이 필요하다

추천 로직으로 이익을 창출하는 회사로는 쿠팡, 아마존이 있고

광고 로직으로 이익을 창출하는 회사로는 구글 페이스북 네이버 카카오가 있다

그리고 Ai가 주제인 컨퍼런스답게 머신러닝 및 딥러닝 이야기가 많았고

머신러닝이 필요한 곳은

메인 비즈니스의 효율화를 고속화하기 위해

비즈니스 중에 사람이 감으로 하거나 사람이 하기에 느려지는 부분,

머신러닝과 데이터를 이용해 대체하여 자동화하거나 판단을 보조하여 빠르게 한다.

등 좋은 발표를 들었다.

#두번째 세션 - AI 프로젝트 간지나게 잘 진행하는 법

일단 구글의 브레인팀은 간지난다..라고 시작한다 ㅎㅎ

내가 듣고 느낀 구글의 브레인팀은 계속해서 새로운 기술을 더 깊고 넓게 심화하며 연구하는 팀인것 같다.

그리고 Ray Johnson - "실패하는 머신러닝 프로젝트 이유들"에 대해서 이야기를 들었다

머신러닝 실패 원인 1. 비즈니스에 대한 이해 부족
머신러닝 모델을 사용하는 데이터 작업자가 머신러닝이 해결하고자 하는 비즈니스 문제를 제대로 이해하지 못할 경우 프로세스에 오류가 발생할 수 있다.

머신러닝 실패 원인 2. 낮은 데이터 품질
쓰레기가 들어가면 쓰레기가 나오는 법이다. 데이터 품질이 충분히 좋지 않으면 머신러닝은 효과를 발휘하기 어렵다.

머신러닝 실패 원인 3. 잘못된 머신러닝 사용
머신러닝을 성공적으로 사용하려면 머신러닝을 적용하기에 적절한 분야여야 한다

머신러닝 실패 원인 4. 편견

사람은 편견을 가질 수 있으므로 사람이 만들거나 영향을 미친 모델 역시 당연히 편견을 가질 수 있다.

머신러닝 실패 원인 5. 부족한 인프라 자원

필요한 처리 성능이 뒷받침되지 않으면 머신러닝 기반 솔루션을 적시에 개발하기가 어렵고 개발 자체가 아예 불가능한 경우도 있다

머신러닝 실패 원인 6. 부실한 계획과 거버넌스의 부재
열정을 갖고 머신러닝을 시작하더라도 이후 추진력을 잃으면서 서서히 멈추는 경우가 있다. 이는 부실한 계획과 거버넌스 부재를 나타내는 신호다.

이렇게 실패하는 머신러닝 프로젝트의 이유들을 들어 보았고

이미지, 음성러닝에 최소 GPU가 500장 이상이 필요하다는 것에 놀라웠다.

그리고 데이터 파이프라인에 대해 간략하게 들었으며

툴은 TensorFlow의 TFX등을 이용한다

자세한 것은.. https://www.tensorflow.org/tfx

그리고 Google Cloud의 AI Hub의 홍보 아닌 홍보를 들었다

AI Hub - Google Cloud의 AI Hub는 엔드 투 엔드 AI 파이프라인 및 즉시 사용 가능한 알고리즘을 포함한 플러그 앤 플레이 방식의 AI 구성요소를 보관하는 호스팅된 저장소입니다.

#세번째 온라인 게임 데이터 분석 사례와 향후 과제

온라인 게임에는 많은 대량의 데이터가 있는데

온라인 게임 중 특히 MMORPG에서는 현실 세계와 정말 비슷한 경우(사회/경제 등)가 많이 있기 때문에 많은 데이터는 자세히 살펴보면 정말 흥미롭다고 한다.

그리고 Harvard 출신이 개발한 Snorkel과 타 게임의 기계학습 모델링 실수로 인한 사례 등을 들어보았다.

*위 세션을 선택한 이유는 온라인 게임을 많이 좋아하기도 하고, 온라인 게임의 데이터를 어떻게 활용하는지 궁금해서 선택하였다.

#다섯번째 '맛있는 데이터'를 물어다주는 멍멍이

여기서 맛있는 데이터를 물어다주는 멍멍이는 전사에 업무에 필요한 데이터, 주기적으로 요청하는 데이터, 우리가 달성한 성과 등을 보여주기 위해 탄생?했다고 한다.

멍멍이는 Slack을 이용하여 공유되며 멍멍이 친구 고양이도 있는데 고양이는 개선점과 추가해주었으면 하는 요청을 받는다고 한다.

그리고 그렇게 멍멍이가 탄생 후에 항상 전사에서 눈으로 Data를 확인하고 마케팅 및 업무에 이용하여 좋은 방향으로 많이 발전해가고 있다고 한다.

*현재 내가 재직중인 회사에서도 Slack을 도입하려 했지만 회사가 원하는 성격과 많이 다르기때문에 물거품이 되었는데

언젠가는 Slack을 업무에 활용시키거나 직접 만든 ChatBot등 으로 전사의 파트너들에게 어떠한 도움을 주고싶다.

#일곱번째 데이터가 흐르는 조직 만들기

사실 이번 컨퍼런스의 세션 중 내용이 쉽고, 공감이 많이 되어서 그런지 가장 흥미있게 들었던 세션이였다.

발표자는 회사에서 1인 데이터 분석가였는데

그로 인해 각 부서에서 많은 데이터 요청이 본인에게만 오고 하루하루 그 요청을 쳐 내기 바빴다고 한다.

그래서 데이터 분석의 시도는 커녕 본인의 본 업무를 진행할 수 없음에

잦은 데이터 요청은 데시보드화하여 언제든 전사에서 눈으로 확인할 수 있게 하였고

그로인에 데이터 분석 업무를 진행할 수 있었지만 아직은 아쉽다는 생각에

회사의 대표님에게 직원들의 업무시간 중 2시간을 빼달라고 요청하였고

요청이 수락되어 그 2시간동안 Sql Query에 대해 교육? 스터디를 한다고ㅎㅎ

수업은 인터넷 강의와 병행하여 진행하였으며 1기 수업이 종료되고

직원들에게 개발 DB접근에 권한을 주어서 직접 Query를 작성하고 필요 Data를 추출한다고 한다.

이러한 효과로 잘못된 Data를 요청하는 이슈가 해결되었으며, 직원이 어떠한 Data가 필요한데

"1테이블과 2테이블의 어떠한 필드의 값이 필요한 것 같다"로 요청한다고 ㅋㅋㅋ

그리고 발표자분이 사용하신 Tool을 여러 개 설명해주셨는데 이야기에 집중하여 듣기만 하다보니 잊어버려서..

*Dev Ground 측에서 자료를 공유해준다고 하였으니 확인하여 Tool과 자료를 첨부해야겠다.

그래서 나는..

컨퍼런스는 목요일에 진행하여 금요일에 출근하여 아침 회의 때 위 세션중 마지막 세션에 대해 공유하였고,

자사에는 데이터 분석, 데이터 팀이 따로 존재하지 않기 때문에 우리도 Admin WebPage에 엄청 많은 Data들을 데시보드화하여 공유하고 있지만 다른 조건의 Data요청이 많아 개발 업무에 차질이 있을 정도이기 때문에 우리도 위 방법을 생각해보는 게 어떤지 건의하였다.

개발적인 정보를 듣고자 컨퍼런스에 참여하였고, 개발적인 부분은 많지 않았지만 시간 낭비하지 않은 좋은 컨퍼런스였다.

~~컨퍼런스 환경이 조금... 불편.. 좁고 덥고 붐비고~~

Play Dev

#DevGround 2019 - #1 Ai 와 데이터 과학 참여

티스토리툴바