호튼웍스 스마트센스 (Hortonworks SmartSense) - WordPress.com

... 데이터를 위한 호튼웍스 데이터 플랫폼 (HDP Powered by Apache Hadoop) ..... 시스템이나 HDFS, 얀(YARN), 맵리듀스(MapReduce), 하이브/태즈 (Hive/Tez),.
展开查看详情

1.Powering the Future of Data 100% 오픈소스 커넥티드 데이터 플랫폼 소개 201 7 년 2 월 락플레이스 이승훈 실장

2.INTERNET OF ANYTHING 데이터의 시대 오픈소스는 표준이고 , 아파치는 그 중심에 있습니다 . Founded: 2011 IPO: 2014 Founded: 1999

3.100% 오픈소스 커넥티드 데이터 플랫폼 소개

4.호튼웍스 기업 소개 커넥티드 데이터 플랫폼의 리더 2011 년 야후에서 하둡 운영팀 ( 설계자 , 개발자 , 운영자 등 24 명 ) 이 분사 하둡 3 대 공급사중 유일하게 나스닥 상장 ( 2014 년말 ) 및 유일한 흑자 ( 지속가능기업 ) 2013 ~ 2016 년까지 연평균 성장율 : 약 100 % 소프트웨어 회사 역사상 최단기간에 매출액 $1 억 불 달성 : 4 년 1050 명 + 직원 , 17 개국 사업 , 1800 개 + 파트너 보관 데이터를 위한 호튼웍스 데이터 플랫폼 (HDP Powered by Apache Hadoop ) 실시간 데이터용 호튼웍스 데이터 플로우 (HDF Powered by Apache NIFI ) 고객 성공을 위한 파트너 오픈 소스 커뮤니티의 리더로서 혁신적 서비스로 기업 고객 요구사항 만족에 매진. 오직 하나뿐인 100% 오픈소스 아파치 하둡 / 나이파이 기여도 1 위로 다양한 산업의 혁신 요구에 맞게 지원구독과 구축 지원이 가능한 회사 직원 개국 기술 파트너

5.HDP : 글로벌하게 가장 많은 고객들이 기술지원구독중 오직 단 하나 뿐인 100% 오픈소스 하둡 배포판으로 미국 포천 100 대 기업의 60% 와 글로벌 500 대 기업의 3 0% 가 유료 구독 고객 입니다 . 호튼웍스는 다른 경쟁사와는 달리 나스닥 상장사라서 모든 자료가 투명하게 주주들에게 매 분기 공지하고 있습니다 . YarN ( 데이터운영체제 ) 공유데이터서비스와 YARN ( 얀 ) 아키텍처 아파치 스팍 / 하이브 / 에이치베이스 / 피그와 다른 프로그램들을 멀티테넌트 데이터 프로세싱 통합된 운영 , 보안 , 거너번스 아파치 암바리 , 레인저와 아트라스에 의해 관리 100 % 오픈 소스 플랫폼 벤더 종속의 위험없이 혁신을 가속화 ODPi 의 핵심으로 상호운영 (GE, Dell EMC, Pivotal, IBM, SAS, Splunk 도 멤버 ) 동일한 하둡을 사용하여 기존 서비스와 통합을 용이하게 함 . ODPi ((Open Data Platform Institute) : 일반적인 참조 사양 및 테스트 제품군을 사용하여 빅 데이터 에코 시스템의 단순화 및 표준화를 위해 노력하는 비영리 조직입니다 .

6.Today 하둡 (Hadoop) 의 여정 : YARN( 얀 ) 기반 생태계 혁신의 가속화 2006 2011 1 ° ° ° ° ° ° N HDFS MapReduce Batch apps 분산저장장치 , 하둡표준없이 배치작업기반의 조회등만 가능했으며 , 사용가능한 아파치 프로그램이 소수 하둡 표준인 YARN( 얀 ) 인증기반 리소스 분산가능 , 실시간 가능 . 빅데이터 비지니스 시나리오에 따라 수 십가지 아파치 프로그램으로 다양한 분석가능 참고 ) 하둡 (Hadoop) 은 이미 10 년이 넘은 신뢰할 수 있는 기술로 수십 ~ 수천대의 x86 서버들을 하나의 클러스터로 묶어 정형 및 비정형 데이터를 함께 분산 / 저장 / 분석할 수 있게 해주는 빅데이터 운영체제로 다양한 산업별로 변형 가능하게 기업을 위해 준비되어 있으며 , 이미 포춘지 선정 1,000 대 기업들의 대부분이 사용 합니다 .

7.지난 8 년의 기간동안 NSA 가 개발하였습니다 . " 예상되는 국가적 보안문제 중 가장 어려운 난제에 대한 혁신적인 해결책입니다 " " 민간기업은 이 애플리케이션을 신속한 지리적으로 흩어져 있는 이동 정보에 대한 제어 , 관리 , 분석에 이용하여 포괄적 상황인식을 가능하게 할 수 있습니다 . " -- 린다 버거 , NSA 디렉터 Apache NiFi 을 개발하던 NSA 기술팀이 세운 Onyara ( 오냐라 ) 라는 회사를 호튼웍스가 2015 년 8 월 인수 국가안전보장국 (NSA) 에 의해 개발된 나이파이 ( NiFi )

8.빅 데이터 유입을 용이하게 만드는 HDF 하둡으로의 데이터 이전 작업은 복잡하고 번잡하여 제대로 완수하려면 수 주 혹은 수 개월이 소요 HDP 호튼웍스 데이터 플랫폼 HDP 호튼웍스 데이터 플랫폼 간소하고 능률적이며 , 쉽게 Hortonworks DATA Flow

9. 지원 구독 (Support Subscription )

10.호튼웍스의 지원 엔지니어들은 힘든 문제가 생기면우리 지원 엔지니어들은 아파치 하둡의 원천제작자인 커미터와 직접 연락합니다 . 구글에서 ‘Apache Hadoop Committer’ 를 검색하시면 하둡 3 사중 어느 회사가 가장 많은 커미터 를 고용하고 있는 지 확인 가능합니다 . 아파치 커뮤니티에서 호튼웍스의 하둡에 대한 영향력 (1/2) 사실상 원천제조사에 문의하는 것임 아파치 하둡 커미터 (117 명 ) 의 35% 가 Hortonworks 와 Yahoo! 직원 Hortonworks : 34 명 , Yahoo ! : 11 명 , Cloudera : 18 명 , IBM:2 명 , Pivotal : 1 명 , Oracle : 0 명 , MapR : 0 명 ( 2017.1.29( 일 ) 기준 ) 호튼웍스는 가장 많은 커미터를 고용 아파치® 하둡™ 프로젝트와 다른 중요한 프로젝트의 200 + 명 ( 다른 어느회사보다 2 배가 많음 ) 호튼웍스는 하둡 로드맵에 영향력 보유 최신 데이터 아키텍처에 위한 정의 , 혁신 하며 , 로드맵을 제공 고객들과 파트너들에게 로드맵에 직접 영향을 줄 수 있는 방법을 제공 커미터 (Committer) 는 아파치 커뮤니티 내에서 " 공적을 쌓았고 " 소속된 아파치 프로젝트 소스 코드 저장소에 직접 코드를 입력할 권한을 가진 사람 .

11.호튼웍스가 아파치 하둡을 만드는 회사중 개발코드에 대해 가장 압도적인 기여하므로 호튼웍스만이 하둡에 대한 업그레이드 , 업데이트 , 버그픽스를 가장 신속히 대응할 수 있습니다 . 아파치 커뮤니티에서 호튼웍스의 하둡에 대한 영향력 (2/2) 사실상 원천제조사에 문의하는 것임 세부참조 : http :// ko.hortonworks.com /products/subscriptions/support/ 2015 년 아파치 하둡 커뮤니티 활동 중 개발코드라인 숫자로 본 기여도 1 위 : 호튼웍스 : 약 24 만 라인 2 위 : 화웨이 : 약 8 만 라인 3 위 : 클라우데라 : 약 6 만 라인 ( 호튼웍스의 약 1/4 수준 ) 맵알은 하둡파일시스템 (HDFS) 가 아닌 맵알 파일시스템 ( MapR -FS ) 을 제작하므로 아파치 하둡 기여도가 거의 없음

12.데이터센터 기술 리딩 회사들과 상호기술교환하는 HDP Hortonworks DATA PLATFORM Hortonworks Data Platform(HDP) 은 100 % 오픈 소스 아키텍처로 인해 하기 데이터 센터의 기술들 및 BI 구성 요소들은 HDP 의 데이터 및 처리 기능에 쉽게 통합됩니다 .

13.Develop( 개발 ) Distribute( 배포 ) 오픈소스커뮤니티와 일하고 , 비즈니스 요구사항을 맞추기 위해 프로젝트를 개발 테스트후 , 패키지된 프로젝트의 버전들을 최종 고객들과 그들의 사용자에 배포 Support( 지원 ) Architect( 설계 ) 계획된 미래 신판 ( 새버전 ) 들 대해 비즈니스 요구사항들을 소개 설치된 고객들과 새로운 요구사항들을 캡처링하기 위해 최종고객지원 제공 호튼웍스 소프트웨어 라이프 사이클

14.지원 구독 (Support Subscription) 1/4 회사명 기술 지원 내용 주제안사 ( 리셀러 ) 선택사항 현장방문 , 설치 , 운영 플랫폼 초기 설치 및 클러스터 구성 분석 시스템 연동 및 확인 호튼웍스 스마트센스 및 자가진단 툴 사용 가이드 장애시 1 차 대응 ( 고객사 요청시 현장방문 ) 장애 복구를 위한 호튼웍스 본사와 communication 수행 호튼웍스 ( 기술 원천사 ) 온라인 지원으로 심각도수준 (1~4) 따른 응답 개발 , 시험 사용 , 준비 및 구축에 대한 무제한 운영 지원 글로벌 지원 , 24x7 웹 및 전화 지원 ( Cluster 크기에 따라 Named Contact 수 ) 업그레이드 , 업데이 트에 대한 접근 권한 버그픽스와 개선을 요청 가능 원격 문제 해결 : Webex , SSH 설치 , 구성및 & 클러스터 관리 문제 성능 문제 데이터 로딩 , 처리 및 질의 문제 고객 지원 포탈 , 고급 기술 문서 스마트센스 (HDP) : 기계학습기반 선제적인 클러스터 감시 및 클러스터 예측적 분 석 ( 투자 최적화를 위한 자동분석 ) 호튼웍스 유니버시티 ( 자기주도 학습 / HDP) 지식 기반 ( Knowledge Base ) 통합된 고객 포털 ( Integrated Customer Portal) 주문형 교 육 (On-Demand Training) 고객 환경 ( Customer Environment) 어떤 클라우드 도 가능 • 하이브리드 환경 • 다중 사용성 ( Multi-tenant) 호튼웍스 스마트센스 ( Hortonworks SmartSense )

15.지원 구독 (Support Subscription) 1/4 회사명 기술 지원 내용 주제안사 ( 리셀러 ) 선택사항 현장방문 , 설치 , 운영 플랫폼 초기 설치 및 클러스터 구성 분석 시스템 연동 및 확인 호튼웍스 스마트센스 및 자가진단 툴 사용 가이드 장애시 1 차 대응 ( 고객사 요청시 현장방문 ) 장애 복구를 위한 호튼웍스 본사와 communication 수행 호튼웍스 ( 기술 원천사 ) 온라인 지원으로 심각도수준 (1~4) 따른 응답 개발 , 시험 사용 , 준비 및 구축에 대한 무제한 운영 지원 글로벌 지원 , 24x7 웹 및 전화 지원 ( Cluster 크기에 따라 Named Contact 수 ) 업그레이드 , 업데이 트에 대한 접근 권한 버그픽스와 개선을 요청 가능 원격 문제 해결 : Webex , SSH 설치 , 구성및 & 클러스터 관리 문제 성능 문제 데이터 로딩 , 처리 및 질의 문제 고객 지원 포탈 , 고급 기술 문서 스마트센스 (HDP) : 기계학습기반 선제적인 클러스터 감시 및 클러스터 예측적 분 석 ( 투자 최적화를 위한 자동분석 ) 호튼웍스 유니버시티 ( 자기주도 학습 / HDP) 지식 기반 ( Knowledge Base ) 통합된 고객 포털 ( Integrated Customer Portal) 주문형 교 육 (On-Demand Training) 고객 환경 ( Customer Environment) 어떤 클라우드 도 가능 • 하이브리드 환경 • 다중 사용성 ( Multi-tenant) 호튼웍스 스마트센스 ( Hortonworks SmartSense )

16.지원 구독 (Support Subscription) 3 /4 호튼웍스 스마트센스 호튼웍스는 개별적인 클러스터 노드에 대한 제안을 제공하는 250 개 이상의 규칙 (rule) 을 생성 여기에는 운영 시스템이나 HDFS, 얀 (YARN), 맵리듀스 (MapReduce), 하이브 / 태즈 (Hive/ Tez ), 에이치베이스 ( HBase ), 암바리 ( Ambari ) 등 주요 요소에 발생할 수 있는 잠재적인 성능 , 보안 , 운영 이슈에 대한 해결책을 제공 스마트센스 서비스는 평균 영향력이 높은 15 개의 제안을 생성 하며 . 고객은 이들 제안을 참조해 현재 적용한 모범 사례를 잘 유지할 수 있음 . 고객은 각자의 환경에 맞는 개인화된 보안 규칙 (rule) 을 만들수 있음 . 이 규칙으로 전체 파일을 익명화하거나 , 선택적으로 추출 , 교체 , 제거할 수 있어 , 설정 , 메트릭 , 로그 파일 내에 있 는 각종 속성은 물론이고 정규식 표현까지 보호 . ( AES, RSA 암호화 알고즘 조합 사용 . 스마트센스에 올리기 전 번들 파일에 들어 있는 내용을 사전검사 가능 )

17.After SmartSense Recommendations YARN Capacity 를 조정하여 1200 개의 동시작업을 진행하며 , 피크타임에 오직 350 개의 작업만 기다림 얀 메모리 튜닝을 통해 잡 (job) 처리 성능을 46% 나 높임 분석 결과 새로 추가한 노드에서 중요한 설정 ( 리눅스 커널 기능 중 성능에 큰 영향을 끼치는 것을 활성화하지 ) 않은 실수를 범한 것 . 애초 기대했던 성능 개선 만약 스마트센스가 미리 알려주지 않았더라면 , HDFS 데이터 스토리지 용도로 쓰던 로컬 파일 시스템을 다 날린 뻔 함 스마트센스는 이 문제를 감지해냈고 , 네트워크 이슈를 일으키는 노드가 어떤 것인지 찾아내고 , 이 정보를 토대로 이 고객은 문제를 신속히 해결하여 , 클러스터 성능을 개선 Before SmartSense 오직 500 개의 동시작업만 가능 피크타임에 1100 개의 작업들이 대기 하이브 / 테즈 쿼리로 구성된 워크플로우로 분석 작업을 Oozie 로 다수의 워크플로우를 관리 클러스터에 노드를 추가한 후 성능이 높아질 것으로 기대했지만 , 막상 해보니 성능이 떨어짐 업그레이드가 필요한 시기를 코앞에 두고 있었음 여러 노드에 걸쳐 네트워크 인터페이스 카드 설정을 잘못 했었음 호튼웍스 스마트센스 적용 사례 30% of support cases are configuration issues— this is where SmartSense adds incredible value

18.Hortonworks University 및 지원구독 종류 Hadoop 의 리더 및 커미터가 모여 당사의 교육 과정을 마련 실생활에서 일어나는 시나리오를 토대로 몰입형 경험을 제공 가치가 높은 신기술로 무장한 전문가가 될 수 있게 도와 드림 Enterprise Enterprise Plus Apache Hadoop & YARN ✔ ✔ Apache Ambari ✔ ✔ Apache Falcon ✔ ✔ Apache Flume ✔ ✔ Apache HBase ✔ ✔ Apache Hive ✔ ✔ Apache Knox ✔ ✔ Apache Mahout ✔ ✔ Apache Oozie ✔ ✔ Apache Phoenix ✔ ✔ Apache Pig ✔ ✔ Apache Sqoop ✔ ✔ Apache Tez ✔ ✔ Apache Zookeeper ✔ ✔ Apache Atlas ✔ Cloudbreak ✔ Apache Accumulo ✔ Apache Kafka ✔ Apache Ranger ✔ Apache Spark ✔ Apache Storm ✔ 지원 구독 (Support Subscription) 4/4

19.Focus on core business Speed time to market Maintain business continuity 지원구독을 통해 깨닫는 고객들의 가치 (1/2) “ 호튼웍스를 더 빨리 연락을 하지 않았는 지 더 이상 변명하지 않습니다 . 우리는 하둡을 관리하는 데 시간을 더 이상 쓰지 않고 어플리케이션을 하둡에서 개발하는 데 집중하고 있습니다 . Fannie Mae 전통적으로 하둡플랫폼을 구성하고 과제들을 생산하여 전반적인 성과까지 18 개월이 걸렸으나 이를 9 개월로 줄입니다 . 더 나은 ROI, 빠른 적용과 확장이 가능합니다 . “ 왜 호튼웍스 구독에 의지하냐구요 ? 매우 간단해요 , 밤에 자고 싶기 때문이죠 .” Progressive

20.Improve performance Build skills Influence technology 우리 개발자가 하둡 지식에 접근이 필요하거나 우리가 누구가와 하둡에 말할 때 마다 , 호튼웍스 직원들만이 커미터들과 왜 이야기 하지 않는 지 확신에 차 이야기 할 수 있습니다 . (20 개 이상의 프로젝트에 202 명이상의 아파치 소프트웨어 재단의 커미터를 확보 , 제품에 대한 수정에 대한 피드백이 가능하고 로드맵에 가장 큰 영향을 미침 ) Mercy 어플리케이션 제작전에 구성이슈들은 리소스를 소진시키며 , 제작을 지연 시킬 수도 있습니다 . 호튼웍스를 구독하므로신기술 채택을 증가시키고 , 더 많은 Use Case 를 차례차례 더 많은 방법으로 추진할 수 있어 KPI 를 향상시킵니다 . 트루카는 호튼웍스와 파트너가 되자 즉시 25 명의 직원을 교육시켰고 지금은 유지보수 능력에 경쟁력이 있는 잇점이 되었습니다 . 차세대기술의 엔지니어들에 주목하는 회사라면 , 오픈소스로 가는 것이 조직에 활력을 불어넣기 위해 필요한 것입니다 . Neustar 지원구독을 통해 깨닫는 고객들의 가치 (2/2)

21.경쟁사 대비 차이점

22.경쟁사 Hadoop 일부 ‘ 오픈 ’ 플랫폼 상업적 ‘ 기업용 ’ 기능 타사를 좇아내고 고객은 묶어놓는 전략 기존 데이터 시스템 요구사항 저장 및 처리 운영 보안 거버넌스 접근 HDP Apache Hadoop 저장 및 처리 운영 보안 거버넌스 접근 HDFS Ambari, Falcon Knox, Ranger, Entire Stack Falcon Hive, HBase, Pig, Spark, Storm, etc.. YARN & HDFS 경쟁사 경쟁사 Hadoop 저장 및 처리 운영 보안 거버넌스 HDFS Cloudera Manager Sentry* Cloudera Navigator YARN & HDFS Cloudera Impala, Hive, HBase, Spark, 접근 100% 오픈소스 아파치 프로젝트 상업적 오픈소스 넓은 생태계 및 커뮤니티 참여 코드 저장소 공유 ASFv2 Hortonworks 오픈소스 모델 오픈 커뮤니티 개발 = + 오픈소스 * Incubating Apache project focused on security for proprietary Cloudera features 경쟁사와 차별점 : 오직 하나뿐인 100% 오픈 소스 하둡 공급사

23.큰 고객들사이 호튼웍스를 선택한 가장 큰 이유 : HDP 의 YARN 은 하둡의 처리력을 두 배로 만듬 ( 투자 최적화 ) 고객이 HDP 를 사용하는 이유는 많은 데이터 분석가와 데이터 과학자들은 빠른 시장변화에 맞게 분석하기 위해 전체 데이터를 동시에 분석해야 하므로 데이터의 추가 복제 없는 멀티테넌시 제공 이 가장 큰 가치였습니다 . Hortonworks Data Platform : YARN 에서 개발된 중앙집중형 구조 다른 Hadoop 업체 : YARN 을 제대로 사용하지 못하는 격리된 시스템들 단일 클러스터 , 다양한 앱 효율적 저장 , 처리 중앙화된 보안 , 관리 , 거버넌스 다양한 앱을 동시에 구동 해체 , 독립된 클러스터 비효율적 자원 관리 , 단일 목적 사용 , 중복된 저장소 및 처리 ( 동일한 데이터를 클러스터마다 복제해야 함 ) 거버넌스 , 보안 , 운영의 중복 구현 신규 앱은 새로운 클러스터를 요구 호튼웍스의 하둡배포판의 YARN Capacity Scheduler 설정한 경우 큐 별로 용량을 할당해 여러 작업을 동시에 수행 경쟁사들의 배포판은 YARN Capacity Scheduler 기능을 제공하지 못하므로 앞사람의 작업이 끝나야 뒤의 작업이 시작됨

24.엔터프라이급 상용 하둡을 제공 : 가장 빠른 버전 업그레이드 Apache Hadoop 을 사용하여 구축된 다른 플랫폼 제공 업체와 달리 Hortonworks 는 우리 코드의 100 % 를 아파치 소트프웨어 재단에 다시 기부합니다 . 호튼웍스 데이터 플랫폼은 Apache 라이선스이며 , 완전히 오픈 소스입니다 . 전문가의 기술 지원 , 교육 및 파트너 지원 서비스만 판매합니다 . 우리의 모든 기술은 자유롭고 공개 된 소스입니다 . 최신 안정화 버전 : Hortonworks Data Platform 2.5.3 = Apache Hadoop 2.7.3

25.호튼웍스 고객 성장 속도는 클라우데라를 2015 년 9 월 앞지름 (2016 년 12 월 현재 나스닥공지자료상 1,000+ 고객사에서 지원 서비스 구독중 ) * 클라우데라는 2015 년 9 월 이후 고객수 발표 중단 . 개인회사 ( 비상장사 ) 인 _ 클라우데라는 실제구독고객 수를 2016.9 월이후 발표중지

26.고객 및 대표적 사례

27.구독 고객 : 미국 포춘 100 대 기업의 60% 이상 ( 글로벌 포춘 500 대 기업의 3 0% 이상 ) Financial Services Including 55% of the US F100 Retail Including 75% of the US F100 Automotive Including 8 of the world’s top 20 Telecommunications Including 8 of the top 9 in North America Learn more at hortonworks.com /customers

28.Hortonworks – Financial Services 북미 은행 상위 5 개 은행중 4 개사 북미 보험 상위 7 개 은행중 4 개사

29.북미 상위 5 개 은행 중 4 개사 도입 자산순위 Bank (North America) Location Total Assets (US$ Billion) Enterprise Hadoop Provider 1 J.P.Morgan Chase & Co New York City, NY $2423.8 Hortonworks 2 Bank of America Charlotte, North Carolina $1685.5 Hortonworks 3 Wells Fargo San Francisco, California $1349.2 Hortonworks 4 Citigroup New York City, NY $1101.0 Cloudera 5 Goldman Sachs Group New York City, NY $878.0 Hortonworks