请选择 进入手机版 | 继续访问电脑版
设为首页 收藏本站
开启辅助访问 快捷导航
菜单
从零开始 资讯 查看内容

一线大数据专家,用一文详解大数据架构,从数据获得到深度进修

2020-5-6 09:41 发布者: 2Pac 评论 0 查看 262
前言本文将从大数据的本质:大数据现状及挑战,驱动因素,未来趋势,Spark原理及应用,探针,爬虫,日志采集,Flink ,深度学习,数据分发中间件进行整体的介绍与概述,下图将全面详解大数据架构。大家可以仔细看看 ...

前言


本文将从大数据的本质:大数据现状及应战,驱动身分,未来趋向,Spark道理及利用,探针,爬虫,日志收集,Flink ,深度进修,数据分发中心件停止整体的先容与概述,下图将周全详解大数据架构。

大师可以仔细看看本文,帮手给出倡议和支持!

一线大数据专家,用一文详解大数据架构,从数据获得到深度进修_资讯_2020-5-6 09:41发布_从零开始_262

首要内容


大数据这几年真的很火,因而有越来越多的人起头进修大数据技术。很多人会误以为大数据是一门技术,实在否则,大数据更多的是一门市场宣传闻话,也可以了解为一种思考方式。从技术角度来看,大数据是一系列技术的组合,所以真正周全把握大数据技术也是一件很困难的工作。
编写本文的初衷就是总结这些年的工作和进修经历,希望可以分享给更多人,同时对自己而言也是一个进步、总结和升华的进程。

总的来说,本文围绕一个通用技术栈来构造章节,首要聚焦大数据平台的一些常识,首要分为三部分:

第一部分:第1~3章,首要报告大数据的本质、运营商大数据的架构和一些根基的营业常识。
  • 第1章:论述大数据的本质和面临的应战;首先提一个题目: “大数据”是-项专门的技术吗?有的人能够会以为大数据是一项专门的技术,实在不是,“大数据”这三个字只是一门市场说话( Marketing Language ),其背后是硬件、数据库、操纵系统、Hadoop等一系列技术的综合利用,所以本书我们希望从一个端到真个架构展开讲授典型的大数据技术。
  • 第2章:概述大数据架构及背后的驱动身分,以及未来成长的趋向;①架构驱动的身分:运营商和互联网面临分歧的历史期间,因此大数据在各自范畴承当的使命是纷歧样的。②运营商面临被管道化的应战,营收下滑,大数据项目承当企业计谋转型、数据变现的使命。同时由于本钱的压力,以及大量根本设备和装备利旧的诉求,所以运营商在大数据项目中,对性能、本钱和集成度提出了很高的要求。③互联网企业近几年盈利颇丰,大数据常常是承当营业快速创新、未来摸索的一种驱动身分,所以对架构的扩大性、灵活性等方面的追求优先级在本钱之上。互联网企业每建一个数据中心凡是就是几千台的范围,这在运营商看来是不成设想的。背后的贸易驱动身分纷歧样, 所带来的架构应战也纷歧样。
  • 第3章:先容运营商范畴的营业,让读者对大数据能做什么有一个直观的感受。运营商大数据即可以衍生出众多营业,首要有SQM (运维质量治理)、CSE(客户体验提升). MSS (市场运维支持)、DMP (数据治理平台)。

第二部分:第4~11章,围绕大数据平台技术栈来论述数据获得、处置、分析和利用平台触及的技术。
  • 第4章:先容数据获得触及的探针、爬虫、日志收集、数据分发中心件等技术。大数据技术的焦点是从数据中获得代价,而第一步 就是要弄清楚有什么数据、怎样获得。在企业的生产进程中,数据无所不在,可是假如不能正确获得,大概没有才能获得,就浪费了贵重的数据资本。本章首要先容数据获得的技术。
  • 第5章:先容流式数据处置引擎、CEP、流式利用。我们将大数据处置按处置时候的跨度要求分为以下几类,从短到长别离是:①基于实时数据流的数据处置( Streaming Data Processing ),凡是的时候跨度在数百毫秒到数秒之间。②基于历史数据的交互式查询( Interactive Query ), 凡是的时候跨度在数十秒到数分钟之间。③复杂的批量数据处置( Batch Data Processing ),凡是的时候跨度在几分钟到数小时之间。接下来的几章会别离报告在这几种处置时候跨度要求下将采纳的技术,首先报告实时数据流的处置。固然,批和流及交互式查询并纷歧定能完全分隔,Spark 的一个首要想法就是同一几个引擎,所以本章会讲到Spark Streaming,在第7章将具体报告Spark对批的处置。
  • 第6章:先容交互式分析技术、MPP DB、热门的SQL on Hadoop技术。界说:基于历史数据的交互式查询( Interactive Query ),凡是的时候跨度在数十秒到数分钟之间。
  • 第7章:先容批处置技术、Spark, 以及大范围机械进修的BSP技术等。界说:复杂的批量数据处置( Batch Data Processing ),凡是的时候跨度在几分钟到数小时之间。
  • 第8章:探讨机械进修、深度进修相关技术。机械进修( Machine Leamning, ML) 是一门多范畴穿插学科,触及几率论、统计学、過近论、凸分析、算法复杂度理论等多门学科。其专门研讨计较机是怎样模拟或实现人类的进修行为,以获得新的常识或技术,重新构造已有的常识结构,使之不竭改良本身的性能。除了机械进修外,本章还将触及别的-一个范畴一数据挖掘, 它和机械进修有很大的交集。机械进修和数据挖掘是两个很是难的范畴,本章更多地从架构和利用角度去解读,理论常识则不停止重点论述。
  • 第9章:同一资本治理是趋向,本章先容资本治理的焦点技术和算法。资本治理的本质是集群、数据中心级别资本的同一治理和分派, 以进步效力。其中,多租户、弹性伸缩、静态分派是资本治理系统要处理的焦点题目。本章首先先容资本治理的根基概念,以及Hadoop范畴常见的一些资本调剂框架;接着先容大数据时代面临的多租户题目、数据中心的同一资 源调剂、资本调剂和分派算法,以及基于利用描写的智能调剂;最初先容一个Mesos代码分析实战。
  • 第10章:存储是根本,本章先容存储的关键技术。存储是一切大数据组件的根本,存储的成长远低于CPU和MEM,致使CPU和存储的速度差越来越大,所以对于DBA来说,调优偶然辰根基等价于调存储。本章将从系统架构和利用角度报告对存储的了解,希望对读者了解存储有所帮助。
  • 第11章:探讨大数据技术怎样云化,以及关键技术是什么。云计较成长到明天,可以说已经成功地从概念落地到现实。企业IT系统能否上云,已经成为企业CIO构建企业IT系统优先斟酌的题目。以AWS/Microsoft Azure 为代表的厂商,每年的云计较收人高达几十亿美圆,而且仍能连结较快的增加速度。从广义上说,大数据技术也是云上的一种根本办事。大数据技术怎样办事化是- - -个值得研讨的范畴。本章将会商以AWS为代表的EMR计划、阿里的ODPS等众多厂商探讨的办事化计划,以及Docker技术对大数据的影响等内容。

第三部分:第12章,技术和文化息息相关,技术影响文化,文化影响技术。

  • 第12章:先容大数据开辟文化、开源、DevOps, 探讨理念和文化对技术的冲击。本章不具体讲哪个组件的开辟技术,只想和大师一-起探讨一 - 下开源文化、理念,以及大数据开辟形式的一些改变。

一线大数据专家,用一文详解大数据架构,从数据获得到深度进修_资讯_2020-5-6 09:41发布_从零开始_262

由于内容有点多,所以小编只做了一个简单的概述,每个小节里面都有加倍细化的内容,希望大师可以了解和喜好,多多支持小编!

需要本【大数据架构详解:从数据获得到深度进修】技术文档的小伙伴,可以转发关注小编,私信小编“技术”来获得获得方式吧!

一线大数据专家,用一文详解大数据架构,从数据获得到深度进修_资讯_2020-5-6 09:41发布_从零开始_262


鲜花

握手

雷人

路过

鸡蛋
收藏 分享 邀请

相关阅读

最新评论

一周热门

头条攻略!

日排行榜

相关分类