Hortonworks 창시자 : Ambari 2.0은 Hadoop 2.0만큼 큰 거래입니다.

Hortonworks의 공동 설립자 인 Arun Murthy : Hadoop에서는 데이터 거버넌스가 완벽하게 처리되지 않았습니다.

Hadoop firm Hortonworks는 바빴습니다. 12 월의 IPO와 Pivotal 및 IBM과 같은 Open Data Platform을 만드는 논란이 있은 후, 새로운 인수를 발표하고 Atlas 보안 프로젝트를 Apache Software Foundation에 제출했습니다.

그러나 Hortonworks의 공동 설립자이자 건축가 인 Arun Murthy는 야후 초기의 Hadoop 및 YARN 자원 관리 계층의 후원자로서 Ambari의 새 버전을 특별히 언급했습니다.

“현재 Ambari는 가장 포괄적 인 오픈 소스 관리 도구입니다 .2.0은 실제로 큰 문제입니다 .Marthy는 YARN과 Hadoop 2.0이 Ambari와 마찬가지로 큰 의미를 지니고 있다고 Murthy는 말했습니다.

“사실상 오픈 소스 관리 플랫폼으로 자리 잡고 있으며, 가장 널리 채택되고 있으며, 하둡 전용으로 설계되었지만 하둡에만 국한되지는 않습니다.”

Murthy가 엔터프라이즈 사용자의 핵심이라고 설명하는 Ambari의 새로운 기능 중 첫 번째는 전체 클러스터를 종료하지 않고도 소프트웨어를 업데이트 할 수있는 롤링 업그레이드입니다.

“2.0의 경우, MapReduce 애플리케이션을 계속 실행하면서 소프트웨어의 적절한 업그레이드를 수행 할 수 있습니다. 차이는 없습니다.”Murthy가 말했습니다.

솔직히 말해서, 그것은 엄청난 양의 엔지니어링이었고 우리는 고객으로부터 숨어있었습니다. Ambari 관점에서 볼 때 ‘버튼 하나만 클릭하면됩니다.’ 중요한 것은 HDFS, YARN, HBase, Oozie, Pig, Hive 등 기본 프로젝트의 모든 작업이었습니다. 이름을 지정하십시오. 20 가지가 넘는 모든 프로젝트는 소프트웨어를 업그레이드 할 때 원활한 경험을 제공 할 수 있도록 수정해야했습니다.

“MapReduce 작업이 HBase 또는 Hive 메타 저장소에있는 항목에 액세스 할 수 있으므로 YARN 및 HDFS에서이를 수행하는 것만으로는 충분하지 않았습니다.”

Ambari 2.0에서 중요한 네트워크 보안 프로토콜 인 Kerberos와 같은 보안 설정 프로세스를 자동화하는 것은 Ganglia 및 Nagios를 대체하는 새로운 Hadoop 메트릭 및 모니터링 시스템입니다.

“Hadoop을 모니터링하는 것은 큰 데이터 문제이기 때문에 Hadoop을 사용하여 모니터하지 않는 이유는 무엇입니까?”이제 우리는 모든 메트릭을 흘려 보았습니다. Ambari가 자동으로 관리하는 HBase 클러스터에 추가 할 수 있습니다.

최근 오픈 데이터 플랫폼과 피보 탈 (Pivotal)의 발표는 하둡 시장에서 변화가 일어나고 있음을 보여주는 신호라고 Hortonworks 사장 인 허브 큐 니츠 (Harb Cunitz)는 전했다.

메트릭 컬렉션을 제한하는 플랫폼에는 고유 한 것이 없습니다. 2 년 또는 20 년 동안 측정 항목을 원하는지 여부를 선택할 수 있습니다. 우리는 정말로 관심이 없으며, 당신이 원하는만큼 또는 선택할 수있는만큼 선택할 수 있습니다.

다른 새로운 Ambari 기능에는 Hadoop이 배포되는 하드웨어, 소프트웨어 및 환경을 분석하고 적절한 설정을 자동으로 식별하는 자동 설정이 포함됩니다.

SQL-on-Hadoop 쿼리 엔진 Hive 및 Tez 프레임 워크에 대한 사용자 정의보기도 제공되므로 사용자는 SQL 쿼리를 분석하고 성능 특성을 이해할 수 있습니다.

Couchbase는 Hortonworks Hadoop과 단일 분석 및 트랜잭션 데이터 저장소를 연계 함 Databricks CEO : Apache Spark에서 많은 기업이 해고되는 이유 MySQL : Percona가 대규모 데이터 세트를 위해 TokuDB 스토리지 엔진을 연결하고 Cloudera가 Hadoop 개발자 Cask, Mesosphere 및 MapR 링크 Teradata, 대형 데이터 애플리케이션 출시, Loom 업데이트, MapR CEO, Hadoop, 2015 IPO 가능성 말하기, Teradata, 기록 애플리케이션 제작 업체 RainStor 인수, Hortonworks, 인증 프로그램 확대, 기업 가속화 기대 Hadoop 도입 : Actian은 SPARQL City의 그래프 분석 엔진을 병기에 추가하고 Splice Machine의 Hadoop 데이터베이스는 일반 릴리스로 전환

Big Data Analytics, 빅 데이터 애널리틱스, DataRobot은 데이터 과학의 저조한 성과를 자동화하는 것을 목표로하고 있으며 Big Data Analytics, MapR 창업자 인 John Schroeder는 사임하고, 대체 할 COO

“우리는 위대한 UI를 가지고 있습니다. 당신이 파고 들어 셀프 서비스 디버그를 할 수있는 멋진 비주얼 팬이 있습니다. 과거에는 하이브 쿼리를 작성해야했지만 하이브를 실제로 디버깅하는 방법을 알고있는 사람과 일해야했습니다 “Murthy는 말했다.

“Ambari에 모든 것을 넣음으로써 우리는 목표와 우리가 여러 단계에서 얻을 수있는 목표가 무엇인지를 알게되었습니다. 사용자가 쿼리가 왜 빠르거나 느린지를 이해할 수있게하는 것입니다. 어떤면에서는 이것은 성숙한 Ambari의 반영입니다. 우리는 이제 이러한 모든 기능을 사용하지 않고 가용성과 디버그 기능에 초점을 맞추 었습니다. 더 많은 것을 할 것입니다. ”

Ambari가 지난 주에 얻은 Cloudbreak 기술이 SequenceIQ를 인수하면서 얻은 부분은 스택, 구성 요소 레이아웃 및 Hadoop 클러스터 인스턴스의 구성을 지정하는 Blueprints 기능입니다. Cloudbreak를 사용하면 Hadoop 클러스터의 여러 인스턴스 및 버전을 클라우드, Docker 컨테이너 또는 베어 메탈에서 실행할 수 있습니다.

“Hadoop은 복잡해지고 있다는 것을 잘 알고 있지만 20 가지 요소가 있습니다. 그러나 많은 경우에 모든 복잡성을 정말로 원하지는 않을 것입니다 .IoT [Internet of Things]에서는 폭풍과 카프카 만 원할 것입니다. Hive와 MicroStrategy 만 있으면 좋을 것 “이라고 말했다.

하둡 및 빅 데이터에 대한 추가 정보

Ambari가 청사진으로 수행하는 작업에서 청사진을 정의 할 수 있습니다. 원하는 청사진의 정의 인 IoT 청사진, 분석 청사진, 데이터 과학 청사진을 예로 들어 봅시다. 원하는 것을 고르지 만 수정할 수있는 미리 설계된 청사진을 제공 할 수 있습니다.

클라우드 회사 인 Pivotal은 Open Data Platform Hadoop 이니셔티브에서 뚜껑을 들어 올리는 것 외에도 Hortonworks와의 관계를 강화하고 핵심적인 빅 데이터 기술을 오픈 소스 화하고 있습니다.

멋진 부분은 이제 당신이이 청사진을 가지고 있기 때문에 Cloudbreak를 사용하여 클라우드에 전개 할 수 있다는 것입니다. 클라우드 또는 내부 OpenStack 클러스터에 배치 할 수 있습니다. 이를 통해 매우 간단하게 응용 프로그램의 복잡성을 관리 할 수 ​​있습니다.

그는 오늘날 많은 사람들이 하나의 구름을 선택하지만 미래에는 여러 구름이 평범 할 것이라고 덧붙였다.

그는 “Azure에서 당신의 IoT 작업은 Google에서 데이터 과학 작업을 수행한다. 문제가되지 않는다”며 “클릭 한번으로 간단하게 경험할 수있다”고 말했다.

Blueprints 기능을 사용하면 Hadoop 스택의 특정 부분을 다른 구성 요소로 교체 할 수 있으며 스택의 해당 부분에 대한 사용자 정의보기를 제공 할 수 있습니다.

Hortonworks는 Ambari에서 많은 일이 진행되었지만 제안 된 Apache Atlas 데이터 거버넌스 프로젝트에서 Aetna, JPMorgan Chase, Merck, SAS, Schlumberger 및 Target과 SAP 및 다른 여러 회사와도 관련되어 있습니다. Hadoop의 최하층에 HDFS와 YARN이 상주 할 것으로 예상됩니다.

경계 보안을위한 녹스 (Knox), 중앙 보안 정책을위한 레인저 (Ranger), 데이터 라이프 사이클 관리를위한 팔콘 (Falcon)과 같은 기존 아파치 프로젝트와 결합 될 것이다. Atlas가 제공되는 곳은 Hadoop의 메타 데이터 관리입니다.

예를 들어, 기업은 데이터 거버넌스의 감사 측면에서 사용할 수 있습니다. 기업에서 특정 데이터 조각을 만졌지 만 누가 보안 정책과 연계되어 있는지 파악할 수 있습니다.

“전체 데이터 관리, 데이터 거버넌스는 해결되지 않은 하둡 (Hadoop) 조각입니다. 스택의 가장 낮은 레벨에서 플랫폼의 가장 핵심 부분에서 누락 된 부분은 메타 데이터에 중점을 두었습니다”Murthy가 말했습니다.

“태그와 같은 것들이 포함되어 있습니다. 우리는 들어 와서 테이블이나 칼럼에 중요한 정보로 태그를 붙이길 원했습니다. 태그를 지정하자마자 특정 보안 정책이 적용되어야합니다.”

일반 기업이 데이터 아키텍처와 관련하여 자원이 풍부한 웹 거물을 에뮬레이션 할 가능성은 거의 없을 것 같습니다. 네오 테크놀로지 (Neo Technology)의 CEO 에밀 이프 렘 (Emil Eifrem)은 이러한 가능성은 생각보다 가깝다고 말합니다.

Atlas 프로젝트는 데이터 자산에 대한 역할 기반 액세스 정책뿐만 아니라 데이터 속성에 대한 역할 기반 액세스 정책도 다루고 있습니다. 이 기능을 통해 예를 들어 개인 식별 정보 또는 미국 개인 정보 보호 규칙의 PII로 태그 지정된 모든 데이터는 변환을 거치지 만 정책에 의해 액세스가 제한 될 수 있습니다.

그는 “자동적으로 누가 데이터를 누가 사용하는지에 상관없이 모든 정책이 상속 될 것이며 태그가 상속받을 때와 마찬가지로 정책이 계승 될 것”이라고 밝혔다.

“사람들이 MapReduce 프로그램이나 Spark를 작성하거나 Hive를 통해 SQL을 사용하면 새로운 태그를 생성 할 때이 태그가 상속되어야합니다.”

예를 들어, PII 데이터를 포함하는 두 개의 열이 결합되면 출력은 데이터 자산의 계보 (lineage)로 알려진 PII의 영향을받는 것으로 자동 태그 지정됩니다.

“당신은 또한 적용한 처리 요소에 대한 계보를 원한다. 데이터 집합을 생성하기 위해 어떤 SQL 쿼리를 사용했는지 알고 싶다. 다시 돌아와서 프로세스를 변경하거나 다른 SQL 쿼리를 작성해야 할 수도있다. 특정 코드 라인을 통해 얻게되는 노출에 대한 이해를 얻을 수 있습니다. ”

Murthy의 경우, Atlas 프로젝트에 참여한 여러 사업체가 Hadoop 오픈 소스 커뮤니티에 미치는 영향이 매우 크고 중요합니다.

“Aetna 나 Merck 또는 SAP와의 공동 작업의 가치는 Hadoop에 대한 우리의 생각에서 우리가 더 주류가 될 수 있다는 것입니다. 그 작업을 통해 우리는 고통 점을 직접 이해하고 Hadoop 플랫폼, 특히 데이터 관리 및 데이터 관리 “라고 그는 말했다.

“또한 흥미로운 점은 주류 기업이 오픈 소스 소프트웨어를 사용하는 것을 편안하게 할뿐만 아니라 이제는 다시 오픈 소스 소프트웨어를 사용하는 것이 편안함을 보여주는 것입니다.”

Murthy는 이것이 전통적으로 독점 공급 업체와 협력하여 요구 사항을 제공 한 다음 결과가 나온 소프트웨어를보기 위해 2 년을 기다리는 것과 정확히 같은 유형의 것으로 생각합니다. 문제는 해결할 수 있지만 일반적으로 그렇지 않았습니다.

현재 Atlas 이니셔티브와 협력하여 코드 전문 지식을 제공함으로써 로드맵에 직접 영향을 미칠 수 있습니다. 그는 커다란 변화 “라며”커뮤니티가 커질수록 깔때기가 커지고 빠를수록 좋다 “고 말했다.

Murthy는 공동체가 계속해서 발전 할 수있는 진보의 예로 Spy의 NFLabs에서 iPython과 유사한 Zeppelin 웹 기반 노트북 인터페이스를 지적합니다.

“데이터 과학자라면 스크립트를 보지 않는 높은 수준의 사용자 인터페이스를 제공합니다 .SQL 쿼리에서 열 그래프 또는 원형 차트가 필요할 수 있습니다. 모두 자동으로 수행됩니다. 다음 단계는 다음과 같습니다. 공동 작업 및 공유 – 정말 멋진 데이터 과학을 수행했을 수도 있고 노트북을 공유하고 공동으로 편집하고 싶을 수도 있습니다. ”

“이것은 오픈 소스 공동체에 대한 진정한 증거입니다. 혁신은 어디에서나 가능하며, 생태계의 청지기로서의 반응은 발생하고있는 혁신을 최대한으로 이끌어내는 것입니다.”

LinkedIn, 새로운 블로깅 ​​플랫폼 발표

Big OLAP 시대인가?

DataRobot은 데이터 과학의 낮은 매달린 열매를 자동화하는 것을 목표로합니다.

MapR 창업자 존 슈뢰더 (John Schroeder)가 물러났다.