현재 위치 - 회사기업대전 - 정보 컨설팅 - 빅 데이터 교육은 얼마나 걸립니까? 배우기가 어렵습니까?

빅 데이터 교육은 얼마나 걸립니까? 배우기가 어렵습니까?

빅 데이터 개발의 기초를 배우는 데는 오랜 시간이 걸린다. 대데이터 개발 초급 엔지니어 수준에 이르려면 보통 최소 6 개월이 걸린다. 다음 과정은 주요 데이터 학습 과정을 더 잘 이해할 수 있도록 모든 단계에서 제로 기반 대형 데이터 엔지니어를 간략하게 소개하는 데 중점을 두고 있습니다. 과정 프레임워크는 기초적인 대형 데이터 엔지니어 과정으로 큰 데이터를 가지고 있다.

첫째, 1 단계: 정적 웹 기초 (HTML+CSS)

1. 난이도: 별 하나

2. 세션 (기술 지식 포인트+단계 프로젝트 작업+통합 역량)

3. 주요 기술로는 html 공통 태그, CSS 공통 레이아웃, 스타일, 위치 지정, 정적 페이지 디자인 및 제작 방법 등이 있습니다.

4. 다음과 같이 설명합니다.

기술적으로 이 단계에서 사용하는 기술 코드는 배우기 쉽고 이해하기 쉽다. 후기 과정 차원에서 큰 데이터에 중점을 두기 때문에 초기에는 프로그래밍 기교와 사고를 단련해야 한다. 다년간 개발하고 가르친 프로젝트 관리자에 따르면 이 두 가지 사항을 충족하기 위해 J2EE 는 현재 시장에서 가장 잘 이해하고 습득할 수 있는 기술이며 J2EE 는 페이지 기술과 불가분의 관계에 있습니다. 그래서 첫 번째 단계에서 우리의 초점은 페이지 기술입니다. 시장 주류의 HTMl+CSS 를 채택하다.

둘째, 두 번째 단계: 자바 se+자바 웹

1. 난이도: 별 두 개

2. 세션 (기술 지식 포인트+단계 프로젝트 작업+통합 역량)

주요 기술로는 Java 기본 구문, Java 객체 지향 (클래스, 객체, 캡슐화, 상속, 다형성, 추상 클래스, 인터페이스, 공용 클래스, 내부 클래스, 공용 수정자 등) 이 있습니다. ), 예외, 모음, 파일, 입출력, MYSQL (기본 SQL 문 작업, 다중 테이블 쿼리, 하위 쿼리, 내장 프로시저, 트랜잭션, 분산 트랜잭션) JDBC 등

4. 다음과 같이 설명합니다.

Java 기초라고 하는데, 기술점은 얕은에서 깊고, 실제 비즈니스 프로젝트의 모듈 분석, 다양한 저장 방식의 디자인입니다.

및 구현. 이 단계는 처음 네 단계 중 가장 중요한 단계입니다. 이후의 모든 단계는 이 단계를 기반으로 하고 큰 데이터를 가장 많이 배우는 단계이기 때문입니다. 이 단계에서는 처음으로 팀을 만나 전면 배경 (1 기 기술+2 기 기술 종합 응용 프로그램) 이 있는 실제 프로젝트를 개발하고 제작합니다.

셋째, 세 번째 단계: 프론트 엔드 프레임 워크

1 .. 간단한 절차: 별 두 개.

2. 세션 (기술 지식 포인트+단계 프로젝트 작업+통합 역량): 64 세션.

3. 주요 기술로는 자바, Jquery, 주석 반사와 함께 사용, XML 및 XML 구문 분석, dom4j 구문 분석, jxab 및 jdk8.0 의 새로운 기능, SVN, Maven 및 easyui 등이 있습니다.

4. 다음과 같이 설명합니다.

처음 두 단계를 기초로 정적을 동적으로 만들어 우리 웹 페이지의 내용을 풍부하게 할 수 있다. 물론, 시장 인력의 관점에서 볼 때 전문적인 프런트 엔드 디자이너가 있다면, 이 단계에서 설계하는 목표는 프런트 엔드 기술이 사람들의 사고와 디자인 능력을 보다 직관적으로 단련할 수 있다는 것입니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 예술명언) 동시에, 우리는 또한 2 단계의 고급 기능을 이 단계에 통합했다. 학습자가 계단을 오르게 하다.

4 단계: 엔터프라이즈 개발 프레임 워크

1 .. 간단한 절차: 별 세 개

2. 세션 (기술 지식 포인트+단계 프로젝트 작업+통합 역량)

주요 기술은 Hibernate, Spring, SpringMVC, log4j slf4j 통합, myBatis, struts2, Shiro, redis, 프로세스 엔진 activity, 입니다

4. 다음과 같이 설명합니다.

자바 과정 전체를 빵집에 비유하면 처음 세 단계에서 무대랑사오빙 (순수공-너무 번거롭기 때문) 을 만들 수 있고, 학습 프레임워크는 스타벅스 (하이테크 장비-시간 절약) 를 열 수 있다. J2EE 개발 엔지니어라는 직위의 요구 사항으로 볼 때, 이 단계에서 사용되는 기술은 반드시 습득해야 하며, 우리가 가르치는 과정은 시장보다 높아야 합니다 (시장에서 주류의 틀은 세 가지가 있고, 우리는 7 가지 프레임 기술을 가르치고 있습니다). 실제 비즈니스 프로젝트에 의해 구동됩니다. 요구 사항 문서, 전체 설계, 상세 설계, 소스 코드 테스트, 배포, 설치 설명서 등 해석될 것입니다.

다섯째, 다섯 번째 단계: 큰 데이터를 이해합니다.

1. 난이도: 별 세 개

2. 세션 (기술 지식 포인트+단계 프로젝트 작업+통합 역량)

3. 주요 기술로는 빅 데이터의 첫 번째 부분 (빅 데이터란 무엇인가, 애플리케이션 시나리오, 대형 데이터베이스 학습 방법, 가상 시스템 개념 및 설치 등) 이 있습니다. ), Linux 공통 명령 (파일 관리, 시스템 관리, 디스크 관리), Linux 셸 프로그래밍 (셸 변수, 루프 제어, 적용), Hadoop 소개 (Hadoop 구성, 독립 실행형 환경, 디렉토리 구조, SHELL 완전 분산 클러스터 구축), MapReduce 애플리케이션 (중간 컴퓨팅 프로세스, Java 운영 MapReduce, 프로그램 실행, 로그 모니터링), Hadoop 고급 애플리케이션 (YARN 프레임워크 소개, 구성 항목 및 최적화, CDH 소개, 환경 구축), 확장

4. 다음과 같이 설명합니다.

이 단계는 신입사원들이 큰 데이터에 대해 비교적 큰 개념을 갖도록 하기 위해서이다. 어떻게 상대적입니까? 예과 자바 (JAVA) 를 배우면 프로그램이 단일 컴퓨터에서 어떻게 작동하는지 알 수 있다. 그럼 빅데이터는요? 큰 데이터는 대규모 기계 클러스터에서 프로그램을 실행하여 처리하는 것이다. 물론 큰 데이터는 데이터를 처리해야 하기 때문에 데이터 스토리지도 독립 실행형 스토리지에서 다중 시스템 대규모 클러스터 스토리지로 변경됩니다.

당신은 나에게 클러스터가 무엇인지 물었습니까? 네, 밥 한 솥이 있습니다. 나는 스스로 완성할 수 있지만 시간이 오래 걸린다. 이제 저는 여러분을 함께 식사하도록 초대합니다. 혼자 있을 때 다른 사람에게 전화하다. 사람이 너무 많으면 어떡하지? 군중인가요? ) 을 참조하십시오

그렇게 큰 데이터는 크게 큰 데이터 저장소와 큰 데이터 처리와 크게 나눌 수 있다. 그래서 이 단계에서 우리 수업은 큰 데이터의 기준을 설계했다. HADOOP 빅데이터는 우리가 자주 사용하는 WINDOWS 7 이나 W 10 이 아니라 가장 널리 사용되는 시스템인 LINUX 를 운영한다.

6 단계: 빅 데이터 데이터베이스

1. 난이도: 별 4 개

2. 세션 (기술 지식 포인트+단계 프로젝트 작업+통합 역량)

3. 주요 기술로는 Hive 소개 (Hive 소개, Hive 사용 시나리오, 환경 구축, 스키마 설명 및 작동 메커니즘), Hive 셸 프로그래밍 (테이블 작성, 쿼리 문, 파티션 및 배럴, 인덱스 관리 및 뷰), hive 고급 애플리케이션 (DISTINCT Hbase 셸 프로그래밍 (DDL, DML, Java 운영 테이블 구축, 쿼리, 압축, 필터링), Hbase 모듈 상세 설명 (지역 소개, HREGION SERVER, HMASTER, Zookeeper)

4. 다음과 같이 설명합니다.

이 단계는 큰 데이터가 어떻게 대규모 데이터를 처리하는지 모두에게 알리기 위한 것이다. 프로그래밍 시간을 단순화하고 읽기 속도를 높입니다.

어떻게 단순화할 수 있을까요? 첫 번째 단계에서는 복잡한 비즈니스 연결 및 데이터 마이닝이 필요한 경우 MR 프로그램을 직접 작성하는 것이 매우 복잡합니다. 그래서 이 단계에서, 우리는 큰 데이터의 데이터 창고인 HIVE 를 도입했습니다. 여기에 키워드, 데이터 웨어하우스가 있습니다. 나는 네가 나에게 물어야 한다는 것을 알고 있기 때문에, 먼저 데이터 창고는 보통 거대한 데이터 센터이며, 데이터 마이닝 분석을 위해, 그것은 이 데이터를 저장하는데, 보통 대형 데이터베이스 (예: ORACLE, DB2 등) 이다. 이러한 데이터베이스는 일반적으로 실시간 온라인 업무에 사용됩니다.

결론적으로 데이터 웨어하우스 기반 데이터 분석은 비교적 느립니다. 그러나 SQL 에 익숙해지면 비교적 쉽게 배울 수 있고, HIVE 는 큰 데이터를 기반으로 하는 SQL 쿼리 도구이며, 이 단계에는 HBASE, 즉 큰 데이터의 데이터베이스도 포함됩니다. HIVE 라는 데이터' 창고' 를 배운 적이 있나요? HIVE 는 MR 을 기반으로 하기 때문에 조회가 상당히 느리다. HBASE 는 큰 데이터를 기반으로 실시간으로 데이터를 쿼리 할 수 ​​있습니다. 하나의 마스터 분석과 다른 마스터 쿼리.

7 단계: 실시간 데이터 수집

1 .. 간단한 절차: 별 4 개

2. 세션 (기술 지식 포인트+단계 프로젝트 작업+통합 역량)

3. 주요 기술로는 Flume 로그 수집, KAFKA 소개 (메시지 큐, 애플리케이션 시나리오, 클러스터 구축), KAFKA 상세 정보 (파티션, 주제, 수신자, 발신자, ZOOKEEPER 와의 통합, 셸 개발, Shell 등이 있습니다 Storm 소개 (설계 아이디어, 애플리케이션 시나리오, 프로세스, 클러스터 설치), STORM 개발 (Stromvn 개발, STORM 로컬 프로그램 작성), STORM 고급 (Java 개발, 주요 구성, 프로젝트 최적화), KAFKA 비동기

4. 다음과 같이 설명합니다.

이전 단계의 데이터 소스는 기존의 대규모 데이터 세트를 기반으로 하며, 데이터 처리 분석 결과에 약간의 지연이 있습니다. 일반적으로 처리되는 데이터는 전날의 데이터입니다.

사례 시나리오: 웹 사이트 도난 방지 체인, 고객 계정 이상, 실시간 메시지. 만약 이 장면들이 전날의 데이터를 기반으로 분석된다면 어떨까요? 너무 늦었어? 그래서 이 단계에서 우리는 실시간 데이터 수집과 분석을 도입했다. 주요 내용은 소스에서 널리 지원되는 FLUME 실시간 데이터 수집, KAFKA 데이터 송수신, STORM 실시간 데이터 처리, 데이터 처리 초 등입니다.

여덟. 8 단계: 스파크 데이터 분석

1. 간단한 절차: 별 다섯 개짜리

2. 세션 (기술 지식 포인트+단계 프로젝트 작업+통합 역량)

3. 주요 기술로는 SCALA 소개 (데이터 유형, 연산자, 제어문, 기본 함수), SCALA 고급 사용 (데이터 구조, 클래스, 객체, 특성, 패턴 일치, 정규식), SCALA 고급 사용 (고급 함수 ), SPARK 소개 (환경 건설, 인프라, 운영 모델 등 ). SPARK SQL, SPARK Advanced (데이터 프레임, 데이터 세트, SPARK 스트림 원리, SPARK 스트림 지원 소스, KAFKA 및 SOCKET 통합, 프로그래밍 모델), SPARK advanced programming (Spark-GraphX

4. 다음과 같이 설명합니다.

먼저 이전 단계를 말하는데, 주로 제 1 단계이다. HADOOP 은 MR 을 기반으로 기계 학습 및 인공 지능을 포함한 대규모 데이터 세트를 분석하며 속도가 상대적으로 느립니다. 반복 계산에 적합하지 않습니다. 스파크는 SPARK 의 분석 대안입니다. 어떻게 대체합니까? 먼저 작동 메커니즘에 대해 이야기하겠습니다. HADOOP 은 디스크 스토리지 분석을 기반으로 하고 SPARK 는 메모리 분석을 기반으로 합니다. 내가 한 말을 너는 이해하지 못할 수도 있지만, 좀 더 형상적으로 말하는 것은 마치 베이징에서 기차를 타고 상해에 가는 것과 같다. MR 은 녹색 가죽 기차이고, SPARK 는 고속철도나 자기부양이다. SPARK 는 SCALA 언어를 기반으로 개발되었으며, 물론 SCALA 에 대한 지원이 가장 좋기 때문에 수업에서 먼저 SCALA 개발 언어를 배운다.

HKUST 데이터 코스 디자인에서는 시장의 일자리 요구 기술이 기본적으로 모두 적용됩니다. 또한 단순히 일자리 수요를 포괄하는 것도 아닙니다. 과정 자체는 프런트엔드에서 백엔드까지 완전한 대규모 데이터 프로젝트 프로세스입니다.

예를 들어, 과거 데이터의 저장 및 분석 (HADOOP, HIVE, HBASE) 에서 실시간 데이터의 저장 (FLUME, KAFKA) 및 분석 (STORM, SPARK) 에 이르기까지 실제 프로젝트에서는 상호 의존적입니다.

copyright 2024회사기업대전