官网首页 / 资讯 / 阿里资深技术专家胡月军:大数据十年,我看到的技术变化和趋势

阿里资深技术专家胡月军:大数据十年,我看到的技术变化和趋势

2019-12-08 04:48


核算和存储别离是近几年大数据架构范畴颇受注重的一个技能风向。在对刚刚曩昔的 2019 天猫双 11 技能进行总结时,阿里巴巴 CTO 行癫也特别提到了阿里在核算存储别离上的开展。大数据开端鼓起之时,干流网络带宽只要 100Mb,通过网络长途拜访数据实在太慢了。为了处理数据快速拜访的问题,Google 创造性地提出了核算和存储耦合的架构,而 Hadoop 连续了这个架构,风景一时无两。但十年曩昔之后,现在的网络带宽比较其时现已增长了一百倍,达到了 10G 以上,IO 不再是大数据的瓶颈,核算才是。

近来,有幸采访到了阿里巴巴核算渠道资深技能专家胡月军,聊了聊阿里查找与广告引擎的技能演进头绪、阿里新一代交互式剖析引擎以及大数据范畴近几年的技能趋势和改变。在采访中,胡月军表明:“核算存储别离使存储和核算资源能够各自依据需求进行弹性,较好地节省了本钱,但也给高效引擎的规划与完成带来了不少应战。”

问:您从前担任阿里巴巴多个不同事务线的查找与广告引擎,能否请您给咱们全体整理一下这几年阿里不同查找与广告引擎的技能演进头绪?比方能够分红哪些阶段?不同阶段技能上的侧重点有何不同?

胡月军:近年来,伴跟着电商渠道产品量的许多丰厚,依据实时引荐的智能化运营鼓起以及对提高购物体会和促成交继续优化的事务布景下,查找和引荐的引擎技能也大致阅历了三个阶段。第一阶段首要注重点在引擎检索功能的提高,其时咱们做了许多关于索引构建、查询流程以及算分等组件的优化来提高引擎的 QPS;跟着事务实时化需求越来越火急,第二阶段咱们引擎在在线和离线都做了不少作业,在线引擎完成了内存索引以及辅表相关,离线依据 Flink 孵化了 Blink 的流核算引擎和 Porsche 在线机器学习渠道,大大缩短了端到端的处理推迟,大幅提高了查找和引荐的实时性购物体会;第三阶段引擎的前进首要来自于支撑算法的高效迭代和继续提高查找和引荐的精准性,咱们将引擎的召回和算分进行了别离,笼统出了 RankingService 服务,然后支撑各种查找和引荐召回场景的一致打分,一同支撑在线深度学习核算,较好地提高了购物体会和成交引导。

问:阿里云新一代交互式剖析产品诞生的布景是什么样的?为什么你们要在阿里的 MaxCompute 大数据核算渠道、EMR 开源大数据核算渠道、实时核算渠道之外再打造一个新的交互式剖析引擎?是为了处理哪些问题?

胡月军:阿里云核算渠道交互式剖析引擎的高效存储在 16 年就开端研制了。一开端开发交互式剖析引擎的方针是为了处理 HBase 的稳定性和功能问题,依据存储核算别离和纯异步的 runtime 咱们完成了高功能的存储引擎,上线今后功能是原 HBase 的 3~10 倍。后来依据事务需求,演进成了兼容 PG 生态的大数据实时数仓体系。

它和阿里的其他大数据渠道有着不相同的定位:MaxCompute 渠道是阿里自研的高效离线数仓体系,首要 focus 在高吞吐的批处理;EMR 渠道首要是为了便利公有云上的客户快速建立自己的开源大数据处理方案;实时核算渠道首要注重流处理这块的事务;至于交互式剖析,咱们首要是为处理实时数据存储和 OLAP 剖析的高效即席查询问题,一同完成对 MaxCompute 的离线数仓进行直接查询加快。

这些不同的渠道通常会合在一同给客户供给一个完好的大数据处理方案。一个典型的场景是:数据通过 Flink/Blink 进行实时 ETL 处理后写入交互式剖析的存储体系,然后用户在交互式剖析引擎中进行各种 Ad Hoc 的查询;假如用户需求履行批处理使命,再把数据导入到 MaxCompute 中进行处理;此外,关于现已在 MaxCompute 中的数据,能够运用交互式剖析进行直接加快查询。

问:阿里云的交互式剖析产品是否有对标的商业化产品或开源产品?假如有的话,它跟这些对标产品比较,有哪些技能上的差异和亮点?

胡月军:在业界和阿里云交互式剖析对标的一些产品有 Redshift、Snowflake、GaussDB 和 Hermes。阿里云交互式剖析的首要技能亮点有:依据存储核算别离的高效队伍混合存储,依据 Orca 和支撑联邦查询的优化器,纯异步高功能的查询引擎,以及 PG11 生态兼容等特性。

问:近 3 年来,您首要从事存储与核算引擎的规划与研制作业,假如从大数据存储层和核算引擎这两个层面来看,您以为最近这三年有哪些值得一提的新技能或项目?技能趋势上有哪些改变?

胡月军:个人以为近 3 年大数据存储和核算范畴比较有意义的新技能便是存储和核算别离的鼓起,比方 Snowflake 等,它使存储和核算资源能够各自依据需求进行弹性,较好地节省了本钱,当然这也给高效引擎的规划与完成带来了不少应战。比方怎样规划专门的存储机型和高效 I/O 完成?怎样优化网络连接?怎样在核算节点 I/O 推迟或许会增大的情况下确保 query 处理的低推迟?

技能趋势上,个人看到的一个趋势便是咱们对存储层的注重,比方 Databricks 开源了 Delta Lake,关于阿里云的交互式剖析引擎来说底层存储引擎也是一个非常重要的竞争力,事实上只要做好了存储引擎和数据的一致办理才干使得上层的核算更高效和一致。

问:有观念以为“17-18 年是核算引擎炽热的一年,现在这块现已是红海了”,您是否认同这一观念?您以为当时大数据核算引擎处于什么样的开展阶段?商场是否现已饱满?接下来核算引擎这块还有什么值得注重的技能方向?

胡月军:这两年各种开源的核算引擎的确开展得很快,比方 Flink SQL 的流批一致处理,Spark Structured Streaming 的完善以及 MPP 引擎 Greenplum 的 6.0 的发布。但红海或许还不至于,据咱们查询了解,现在许多公司的大数据处理方案仍是依据 Hadoop/Hive,新引擎的商场遍及度还处于前期阶段。

关于核算引擎自身,个人以为图核算和图画、视频处理的高效支撑或许会是值得注重的技能方向。跟着当下引荐、信誉和安全等需求的鼓起,关于联系的存储和处理越来越重要,现在各家引擎对图核算的支撑还处在各显神通的阶段,后边的开展值得注重;图形和视频处理带来向量核算运用现在也本来越来广泛,现在现已有几家连续将自己的技能开源。

问:核算引擎之外,大数据存储层本年呈现了不少热门话题,比方数据湖、实时数仓。您怎样看本年实时数仓和数据湖的炽热?

胡月军:实时数仓的炽热本质上仍是来自于事务的驱动。当下,智能引荐和精准运营等事务都依赖于对实时数据的快速发掘。小时等级,或许天等级的数据剖析关于许多事务来说再也回不去了。

再说数据湖,当时的数据仓库一般存储的是通过 ETL 清洗过的数据,原始的数据信息会有必定的缺失,所以现在有人发起也存储各种原始的数据,然后进行各种灵敏的剖析。数据湖便是这样一个处理方案,供给一致的数据同步、存储和办理机制,以及核算使命的提交和调度,它着重对数据更全面和体系化的办理和运用。按我个人的了解,数据湖便是一个概念,像数据仓库相同,只不过其发起保存更多的原始数据以及加强对数据办理的操控。底层的相关技能应该仍是依据当下的存储和核算技能,没有太大的革命性改变。

问:2019 年 6 月,谷歌以 26 亿美元收买数据剖析公司 Looker。同月,Salesforce 宣告以 157 亿美元收买 BI 企业 Tableau。2019 年 9 月,Cloudera 宣告收买商业智能实时剖析厂商 Arcadia Data。这几场收买关于大数据范畴来说意味着什么?一致数据剖析渠道会是大数据范畴下一个技能爆发点吗?

胡月军:个人了解这些收买反映的是大数据公司对上层数据剖析事务体系的浸透和把控,这样的整合应该会给用户带来更好的剖析体系运用体会,比方数据剖析服务的云化,然后使得公司能更好地占据 PaaS 和 SaaS 商场。

一体化的数据剖析渠道会完成数据的一致存储和办理,以及各种剖析使命的调度和履行,在防止数据搬家开支的一同给用户供给一致的运用体会,个人以为这将会是一个瓜熟蒂落的成果。

在不久的将来,多智年代必定会完全走入咱们的日子,有爱好入行未来前沿工业的朋友,能够保藏多智年代,及时获取人工智能、大数据、云核算和物联网的前沿资讯和基础知识,让咱们一同携手,引领人工智能的未来!



服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!