서브메뉴
검색
(빅데이터 전문가의) 하둡 관리 : 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개!
(빅데이터 전문가의) 하둡 관리 : 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개!
- 자료유형
- 단행본
- 190123012371
- ISBN
- 9788931555752 13000 : \40000
- 언어부호
- 본문언어 - kor, 원저작언어 - eng
- KDC
- 005.76-5
- 청구기호
- 005.76 A319ㅎ
- 저자명
- Alapati, Sam R.
- 서명/저자
- (빅데이터 전문가의) 하둡 관리 : 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개! / 샘 R. 알라파티 지음 ; 안진섭
- 발행사항
- 서울 : BM성안당, 2018
- 형태사항
- 824 p : 삽화, 도표 ; 26 cm
- 총서명
- BM성안당 ; 5575
- 주기사항
- 부록: 버추얼박스 및 리눅스 설치 그리고 가상 머신 복사하기
- 서지주기
- 색인수록
- 원저자/원서명
- Expert Hadoop administration
- 초록/해제
- 요약: 하둡 생태계의 하둡 컴포넌트들인 아브로, 플룸, HBase, HCatalog, 하이브, 휴, 카프카, 머하웃, 우지, 피그, 스쿱, 스톰, 테즈 등은 하나하나가 책 한 권으로도 나와 있을 만큼 큰 주제이지만 이 책에서는 이런 솔루션들을 빠짐없이 소개하고 언급한다. 저자는 하둡 생태계에서 크게 얀과 하둡 분산 파일 시스템(HDFS)을 배치하면서 하둡으로 배치, 인터랙티브, 실시간 데이터 접근을 위해서는 스크립트로는 피그, SQL로는 하이브, 스파크, 자바 스칼라로는 캐스케이딩, 스트림으로는 스파크 스트리밍, 인메모리로는 스파크, 검색으로는 솔라(Solr), NoSQL로는 HBase와 어큐뮬로, 머신러닝으로는 스파크 MR과 스파크 R 등을 사용한다며 하둡의 핵심 컴포넌트와 툴을 한눈에 보여준다
- 기타저자
- 안진섭
- 기타서명
- 스파크 얀 HDFS 관리, 튜닝 및 보안 비법 대공개
- 기타저자
- 알라파티, 샘 R.
- 가격
- \40,000
- Control Number
- kpcl:225126
- 책소개
-
빅데이터의 숨겨진 가치를 끄집어내라!
속도, 신뢰성, 비용 절감으로 각광받는 ‘하둡’ 관리자의 필독서!
빅데이터 전문가의 하둡 관리
데이터 양이 많은 페이스북같은 기업에서 서버의 트래픽이 몰리지 않고 사용자가 빠른 피드백을 받도록 하려면? 데이터를 분산해서 효율적으로 처리해야 한다.
코끼리 모양의 아이콘으로 연상되는 아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)은 1996년 6월 미국 델라웨어에서 설립된 아파치 HTTP 서버를 포함한 아파치 오픈 소스 소프트웨어 프로젝트를 지원하는 아파치 소프트웨어 재단(Apache Software Foundation, ASF)에서 개발해 아파치 하둡으로도 불린다. 빅데이터 시대에 속도와 신뢰성이 답보되면서 비용도 저렴한 삼박자의 효율적인 솔루션으로 각광받는 하둡은 2003, 2005년에 발표된 구글 분산 파일 시스템(GFS)과 맵리듀스((MapReduce)를 구현한 것으로 대량의 자료를 처리할 수 있는 대형 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크를 말한다. 하둡은 빅데이터를 다루는 다양한 기업에서 도입하고 있는데 익스피디아, 호텔스닷컴, 테슬라, 국내 KT같은 기업 등이 하둡을 여러 분야에 도입하여 하둡 기반 플랫폼도 구축하고 있다.
‘Expert HADOOP Administration’ 원서 저자로 하둡 관리자로서의 기술적인 배경과 집필 경험이 풍부한 샘 R. 알라파티(Sam R. Alapati)는 하둡에 대한 큰 그림을 볼 수 있도록 해준다. 하둡 생태계의 하둡 컴포넌트들인 아브로, 플룸, HBase, HCatalog, 하이브, 휴, 카프카, 머하웃, 우지, 피그, 스쿱, 스톰, 테즈 등은 하나하나가 책 한 권으로도 나와 있을 만큼 큰 주제이지만 이 책에서는 이런 솔루션들을 빠짐없이 소개하고 언급한다. 저자는 하둡 생태계에서 크게 얀과 하둡 분산 파일 시스템(HDFS)을 배치하면서 하둡으로 배치, 인터랙티브, 실시간 데이터 접근을 위해서는 스크립트로는 피그, SQL로는 하이브, 스파크, 자바 스칼라로는 캐스케이딩, 스트림으로는 스파크 스트리밍, 인메모리로는 스파크, 검색으로는 솔라(Solr), NoSQL로는 HBase와 어큐뮬로, 머신러닝으로는 스파크 MR과 스파크 R 등을 사용한다며 하둡의 핵심 컴포넌트와 툴을 한눈에 보여준다. 또 하둡을 관리하기 위해 알아야 하는 것, 하둡 1과 2의 차이점을 다룸으로써 하둡 3 시대에도 대비할 수 있도록 하며, 하둡 관리의 핵심 영역까지 소개한다.
역자 안진섭씨는 역시 빅데이터와 관련된 기업인 SAP 코리아에서 데이터베이스 엔진을 개발하면서 하둡에 대한 경험도 풍부한 프로그래머로서 이 책을 상세하고 이해할 수 있는 수준까지 번역하고자 애썼다.
이 책은 크게 5부 21장으로 구성되어 있다. 1부에서는 하둡의 아키텍처와 하둡 클러스터를, 2부에서는 하둡 애플리케이션 프레임워크, 3부에서는 하둡 데이터 관리 및 보호, 고가용성, 4부에서는 데이터 이동, 리소스 할당, 잡 스케줄링, 보안, 5부에서는 모니터링, 최적화, 문제 해결 등을 다룬다. 빅데이터와 머신러닝의 시대, 꼭 필요한 전문가인 하둡 관리자가 되기 위해 읽으면 도움이 될 책이다.