본문 바로가기

분류 전체보기55

Data Engineer 로드맵 (-ing...) 출처: https://github.com/datastacktv/data-engineer-roadmap 데이터 엔지니어 로드맵을 이미지로 먼저 확인. 데이터 엔지니어 로드맵 CS 기본 프로그래밍 언어 Testing 데이터베이스 기본 관계형 데이터베이스 비관계형 데이터베이스 데이터 웨어하우스 오브젝트 저장소 클러스터 컴퓨팅 기본 데이터 처리 메세징 워크플로우 스케줄링 데이터 파이프라인 모니터링 네트워킹 코드형 인프라 CI/CD (지속적 통합/지속적 배포) 신원 및 접근관리 (IAM) 데이터 보안 & 프라이버시 가지고 있으면 좋은 기술 데이터 시각화 머신러닝 기본 ML Ops 2021. 9. 1.
HBase ? HBase? Apache Hbase는 확장(Scale-out) 가능하며, 분산될 수 있는 대용량 Database. 랜덤 액세스 및 실시간 읽기/쓰기를 지원하는 비관계형 데이터베이스임. Hadoop Ecosystem의 일부로 HDFS에서 동작. 읽기/쓰기에 일관성 보장 HBase 테이블의 구조 HBase의 Table은 Row, Column, Column Family, Column Qualifier, Cell, Timestamp로 이루어져 있다. Table: Row의 집합 Row: Row Key + Columns, Row Key 기준 알파벳순으로 정렬됨 (연관된 Row끼리 가깝게 배치하려면 Row Key 설계 중요) Column: Column Family + Column Qualifier Column Fam.. 2021. 8. 23.
Hadoop 이란? Hadoop 여러대의 컴퓨터에서 병렬 분산처리 할 수 있는 오픈소스 프레임워크 Scale-out 방식 ( 서버 수를 늘림 서버 용량을 늘림 (scale-up 방식) ) Hadoop 특징 서버 추가 -> 선형적 성능 향상 -> 비용 절감 대용량 데이터(PB 이상) 저장 저장된 데이터 수정 불가(DELETE, INSERT만 가능) -> 데이터 일관성 무결성 보장 빠른 장애 복구 및 대응 -> 데이터 유실 방지 이중화(High Availability) (namenode, datanode) Namenode 메타 데이터, 블록 관리 (어떤 블록이 어디에 있는지) datanode를 모니터링 백업을 위한 file 저장 Datanode 데이터가 실제로 저장되어 있는 장소 hadoop job ( MapReduce ) 수.. 2021. 8. 22.
seq2seq + attention 이란? seq2seq 시계열(sequence) 데이터를 다른 시계열 데이터로 바꿔줄 수 있다. (Sequence to sequence) 예를 들면, 한국어를 영어나 일본어로 번역하는 작업, 음성인식 등 seq2seq 모델은 Encoder-Decoder 모델이라고도 불린다. 구조 인코더는 input으로 들어간 데이터를 output으로 압축해서 표현해주고 이를 Context Vector라고 부른다. 디코더는 Context Vector를 새로운 시계열 데이터로 바꿔준다. (결과) 인코더와 디코더는 내부적으로 RNN 구조, 성능을 위해 Vanilla RNN보다는 LSTM이나 GRU로 구성됨 동작 인코더의 output, 즉 context vector는 RNN의 마지막 hidden state 부분에 해당한다. -> Hid.. 2021. 8. 17.