본문 바로가기

DATA SCIENCE6

Hadoop 3 완전 분산 모드 설치 - 2 (Hadoop 설치 & MapReduce) 목표 VM 환경에서 하둡을 완전 분산 모드로 설치하고 Map-Reduce를 실행해보자. 준비 - Java 8 - SSH - Hadoop-3.3.1 기본설치 - 필요한 패키지 정보 업데이트 ~$ sudo apt update ~$ sudo apt upgrade -y - Java 8 설치 ~$ sudo apt install openjdk-8-jdk -y # 버전 확인 ~$ java -version openjdk version "1.8.0_292" OpenJDK Runtime Environment (build 1.8.0_292-8u292-b10-0ubuntu1~20.04-b10) OpenJDK 64-Bit Server VM (build 25.292-b10, mixed mode) - SSH 설치 ~$ sudo a.. 2021. 10. 31.
Hadoop 3 완전 분산 모드 설치 - 1 (VirtualBox에 Linux 설치하기) 목표 VM 환경에서 하둡을 완전 분산 모드로 설치하고 Map-Reduce를 실행해보자. 준비 VirtualBox (6.x) Linux distro image (Ubuntu 20.x) VirtualBox에 Linux 설치 Part 1 - VM 만들기 VirtualBox를 실행하고 [Ctrl + N] 혹은 [새로 만들기(N)] 버튼을 클릭 임의의 VM 이름 입력 (종류와 버전이 자동 선택 되는 듯), 저장 위치 지정, 종류와 버전 선택. [다음(N)] 버튼 클릭. 메모리 크기를 지정. 여기서는 2gb 설장함. [다음(N)]. 지금 [새 가상 하드 디스크 만들기(C)] 선택, [다음(N)]. [VDI(VirtualBox 디스크 이미지)] 선택, [다음(N)]. 설명을 읽어보고 선택. 여기서는 동적 할당 선택함.. 2021. 10. 31.
[Hbase] Hbase ? Hbase Master Server/ Region Server Master (HDFS-Namenode): Create/Delete table, 서버간 로드밸런싱, Zookeeper를 통해 각 Region Server를 할당하고 작업 지시, Region Server 위치를 알려줌 Hbase client 요청 -> Zookeeper -> root region server -> meta region server -> 요청된 data region server region 위치 cache에 저장 -> cache의 위치가 적절하지 않으면 region 재배치, cache 업데이트 Region Server (HDFS-Datanode): CRUD, WAL, MemStore, Hfile, Block Cache Region.. 2021. 10. 13.
Data Engineer 로드맵 (-ing...) 출처: https://github.com/datastacktv/data-engineer-roadmap 데이터 엔지니어 로드맵을 이미지로 먼저 확인. 데이터 엔지니어 로드맵 CS 기본 프로그래밍 언어 Testing 데이터베이스 기본 관계형 데이터베이스 비관계형 데이터베이스 데이터 웨어하우스 오브젝트 저장소 클러스터 컴퓨팅 기본 데이터 처리 메세징 워크플로우 스케줄링 데이터 파이프라인 모니터링 네트워킹 코드형 인프라 CI/CD (지속적 통합/지속적 배포) 신원 및 접근관리 (IAM) 데이터 보안 & 프라이버시 가지고 있으면 좋은 기술 데이터 시각화 머신러닝 기본 ML Ops 2021. 9. 1.