大数据真好玩 | 自由微信 | FreeWeChat

看来，无论胜败，俄罗斯都不会恨西方太久

这四名人质若不获救，多少人已经选择性遗忘了以哈战争因何而起

《我的阿勒泰》45岁李娟现状：未婚未育，不上班不社交，果然年轻

多国驻华使节点赞！抚州这个地方藏不住了！

都别播了一起S！颜值一姐跟户外一哥正面开战！打算鱼死网破：我不怕，忍他很久了！

大数据真好玩

关于Presto避坑的小小指南

Presto的是什么？优势是什么呢？从官方文档中我们了解到Presto是一个分布式SQL查询引擎，用于查询分布在一个或多个不同数据源中的大数据集。千万不要以为Presto可以解析SQL，那么Presto就是一个标准的数据库。Presto被设计为数据仓库和数据分析产品：数据分析、大规模数据聚集和生成报表。这些工作经常通常被认为是线上分析处理操作。所以说，当公司业务有跨库分析时（一般情况是，业务数据库分布在各个部门），一些数据需要配合其他部门的数据进行关联查询，这个时候可以考虑Presto。但是目前，对于MySQL统计查询在性能上有瓶颈。可考虑将数据按时间段归档到HDFS中，以提高统计效率。如果需要对业务数据库进行较为实时的统计，而且不需要跨库操作的时候，建议还是直连数据库。遇到过的问题如何加快在Presto上的数据统计很多的时候，在Presto上对数据库跨库查询，例如Mysql数据库。这个时候Presto的做法是从MySQL数据库端拉取最基本的数据，然后再去做进一步的处理，例如统计等聚合操作。举个栗子：SELECT

大数据真好玩 -

2021年7月7日

【面试&个人成长】2021年过半，社招和校招的经验之谈

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源长话短说。今天有点晚，因为一些事情耽误了，文章发出来有些晚。周末的时候和一个知识星球的读者1对1指导了一些应届生的学习路径和简历准备。因为马上就要秋招了，有些公司的提前批已经启动。2021年已经过半了，各位。时间真是太快了。正好周末抽了一点时间看之前买的关于面试的电子书，针对校招和社招的面试准备和需要注意的点在啰嗦几句。校招提前批要不要投简历？提前批要不要投简历。我的观点是一定要投！重要的话说一遍。提前批是每年7-8月份开始，提前批和高考报志愿里的提前批有异曲同工之妙。公司的目前有2个：提前锁定优秀候选人和减轻正式招聘压力。这个阶段首先竞争压力比较小，方式灵活，多找自己的师兄师姐去打听。很多人不会这么早准备，比如刷题这件事，绝大多数的人都还没开始，所以如果你实习经历结束的早，然后早点着手开始准备，那么提前批就像提前跟你开了个后门。实习经历没有，项目经验太少怎么办？如果你在学校在北京上海这种大城市，实习机会多的数不过来，自己要主动去找，不要脸皮薄。脸重要还是前途重要？自己心里要明白。比如你的实验室方向是后端Java，你实在不想去那个方向卷，想走数据开发，早点看上几本书，B站划拉几个项目敲一敲。然后找个实习，把项目和实习经历有机的结合一下，这不就妥了吗？退一万步讲，没有企业实习经历。那么老师也会有一些校企合作项目吧，再不济也有一些实验室的大作业这种东西，好好做一做，多用上几个技术点，写到简历上也很好看。论文、专利重要吗？对校招生非常重要，哪怕你的论文、专利很水，这是你学生时代唯一证明自己科研成果的东西。校招中有一项评估就是科研成果。就看论文和专利。言尽于此。大数据方向的学习路径？Github搜：https://github.com/wangzhiwubigdata/God-of-Bigdata

大数据真好玩 -

2021年7月5日

我们在学习Spark的时候，到底在学习什么？

我必须要说，Spark这个框架出现之前，我对很多大数据领域的框架源码甚至都是嗤之以鼻的。很多小伙伴在群里或者私信留言问我关于Spark的学习路径问题。Spark发展至今，应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面，基本可以吊打其他的大数据处理框架。我之前发过一篇关于阅读Spark源码的文章：《Spark源码阅读的正确打开方式》。我们在这篇文章的基础上总结一下我曾经总结过的关于Spark的路径。如果有什么更好的资料，欢迎大家加我微信推荐给我。Spark的背景和核心论文假如你是第一次接触Spark，那么你需要对Spark的设计思想有所了解，知道Spark用了哪些抽象，Spark在提出RDD的时候是基于什么样的考虑。在这里给大家推荐几篇论文如下：第一篇：《弹性分布式数据集：一种为内存化集群计算设计的容错抽象》，链接如下：https://fasionchan.com/blog/2017/10/19/yi-wen-tan-xing-fen-bu-shi-shu-ju-ji-yi-zhong-wei-nei-cun-hua-ji-qun-ji-suan-she-ji-de-rong-cuo-mo-xing/这篇文章中提出了弹性分布式数据集(RDD，Resilient

大数据真好玩 -

2021年7月5日

Spark SQL重点知识总结

tbStockDetail(ordernumber:String,rownum:Int,itemid:String,number:Int,price:Double,amount:Double)

大数据真好玩 -

2021年7月1日

数据治理方法论和实践小百科全书

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜什么是数据治理？数据治理是指从使用零散数据变为使用统一数据、从具有很少或没有组织流程到企业范围内的综合数据管控、从数据混乱状况到数据井井有条的一个过程。从范围来讲，数据治理涵盖了从前端业务系统、后端业务数据库再到业务终端的数据分析，从源头到终端再回到源头，形成的一个闭环负反馈系统。从目的来讲，数据治理就是要对数据的获取、处理和使用进行监督管理。是以服务组织战略目标为基本原则，通过组织成员的协同努力，流程制度的制定，以及数据资产的梳理、采集清洗、结构化存储、可视化管理和多维度分析，实现数据资产价值获取、业务模式创新和经营风险控制的过程。是一个持续性的服务，而不是一个有着明确范围的一锤子买卖。为什么要实施数据治理？经过

大数据真好玩 -

2021年6月30日

平平无奇SQL面试题：经典50例

翻译成大白话，问题解析：1）查找出姓名相同的学生有谁，每个姓名相同学生的人数查询结果：姓名,人数条件：怎么算姓名相同？按姓名分组后人数大于等于2，因为同名的人数大于等于2分析思路select

大数据真好玩 -

2021年6月28日

Flink面试通关手册「160题升级版」

Hadoop组件吗？Flink可以完全独立于Hadoop，在不依赖Hadoop组件下运行。但是做为大数据的基础设施，Hadoop体系是任何大数据框架都绕不过去的。Flink可以集成众多Hadooop

大数据真好玩 -

2021年6月22日

ElasticSearch 双数据中心建设在新网银行的实践

很频繁。如果考虑单集群跨机房部署，那么可能造成节点之间频繁的通信，那么通信延时会比较高，甚至造成集群运行频繁不正常，且后期维护成本较高。因此采用多集群多机房部署方案。

大数据真好玩 -

2021年6月17日

Apache Iceberg技术调研&在各大公司的实践应用大总结

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜作者在实际工作中调研了Iceberg的一些优缺点和在各大厂的应用，总结在下面。希望能给大家带来一些启示。随着大数据存储和处理需求越来越多样化，如何构建一个统一的数据湖存储，并在其上进行多种形式的数据分析，成了企业构建大数据生态的一个重要方向。如何快速、一致、原子性地在数据湖存储上构建起

大数据真好玩 -

2021年6月15日

腾讯数据湖实践 | IceBerg在腾讯的优化和实践

Kafka架构设计&部署&实践小指南史上第二全面的关于OLAP数仓总结HDFS

大数据真好玩 -

2021年6月9日

Apache Spark 3.0 自适应查询优化在网易的深度实践及改进

之后，我们的线上任务得到了不同程度的性能提升，也使得我们在遇到问题的时候可以有更多解决问题的思路。在深度实践的过程中，我们也发现了一些可以优化的点：在优化细节上的角度，可以增加命中

大数据真好玩 -

2021年6月7日

Apache Kafka架构设计&部署&实践小指南

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜Kafka基础消息系统的作用应该大部分小伙伴都清楚，用机油装箱举个例子。所以消息系统就是如上图我们所说的仓库，能在中间过程作为缓存，并且实现解耦合的作用。引入一个场景，我们知道中国移动，中国联通，中国电信的日志处理，是交给外包去做大数据分析的，假设现在它们的日志都交给了你做的系统去做用户画像分析。按照刚刚前面提到的消息系统的作用，我们知道了消息系统其实就是一个模拟缓存，且仅仅是起到了缓存的作用而并不是真正的缓存，数据仍然是存储在磁盘上面而不是内存。Topic主题Kafka学习了数据库里面的设计，在里面设计了topic（主题），这个东西类似于关系型数据库的表。此时我需要获取中国移动的数据，那就直接监听TopicA即可。Partition分区kafka还有一个概念叫Partition（分区），分区具体在服务器上面表现起初就是一个目录，一个主题下面有多个分区，这些分区会存储到不同的服务器上面，或者说，其实就是在不同的主机上建了不同的目录。这些分区主要的信息就存在了.log文件里面。跟数据库里面的分区差不多，是为了提高性能。至于为什么提高了性能，很简单，多个分区多个线程，多个线程并行处理肯定会比单线程好得多。Topic和partition像是HBASE里的table和region的概念，table只是一个逻辑上的概念，真正存储数据的是region，这些region会分布式地存储在各个服务器上面，对应于Kafka，也是一样，Topic也是逻辑概念，而partition就是分布式存储单元。这个设计是保证了海量数据处理的基础。我们可以对比一下，如果HDFS没有block的设计，一个100T的文件也只能单独放在一个服务器上面，那就直接占满整个服务器了，引入block后，大文件可以分散存储在不同的服务器上。注意：分区会有单点故障问题，所以我们会为每个分区设置副本数；分区的编号是从0开始的。Producer

大数据真好玩 -

2021年6月6日

史上第二全面的关于OLAP数仓总结

是数据库中的一个核心组件，用于将查询计划转换为物理计划，并对其求值返回结果。查询执行引擎对系统性能影响很大，在一项针对Impala和Hive的对比时发现，Hive在某些简单查询上（TPC-H

大数据真好玩 -

2021年6月1日

HDFS 底层交互原理解析

在异常切换中起到的作用？这些问题都是进程的职责相关的内容，答案都在上面的知识点中都有详细描述，问的方式有千千万万种，但是万变不离其宗，背后的知识点都是固定的。这里考察的是对

大数据真好玩 -

2021年5月31日

一篇并不起眼的Spark面试题

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜Spark通常来说，Spark与MapReduce相比，Spark运行效率更高。请说明效率更高来源于Spark内置的哪些机制？hadoop和spark使用场景？spark如何保证宕机迅速恢复?hadoop和spark的相同点和不同点？RDD持久化原理？checkpoint检查点机制？checkpoint和持久化机制的区别？RDD机制理解吗？Spark

大数据真好玩 -

2021年5月30日

一篇并不起眼的Hbase面试题

TB级数据）且有快速随机访问的需求。如：淘宝的交易历史记录。数据量巨大无容置疑，面向普通用户的请求必然要即时响应。业务场景简单，不需要关系数据库中很多特性（例如交叉列、交叉表，事务，连接等等）。3.

大数据真好玩 -

2021年5月27日

企业级一站式大数据开发平台理论及实践

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源前言本文是个人在从零搭建部门数据及运营平台的过程中的笔记。随着互联网规模不断的扩大，数据也在爆炸式地增长，各种结构化、半结构化、非结构化数据的产生，越来越多的企业开始在大数据平台下进行数据处理。本文借鉴了众多网络上公开的案例和实践。旨在为大家提供建设一站式的数据平台的思路。一站式大数据平台，应该提供数据抽取、数据清洗、数据存储、数据分析、数据共享一站式全流程数据治理，以及数据安全、运维监控等管理。使用户能够更有效地利用数据构建核心系统，加速业务创新。我们期待的一站式数据平台应该包含：一站式数据治理：提供数据仓库的构建，多样化抽取任务调度配置，实现业务数据/实时数据抽取清洗，并入库到数据仓库。同时，提供数据仓库数据高效的检索，满足数据的多样化查询需求。数据血缘分析：数据血缘分析是保证数据融合（聚合）质量的关键环节，通过血缘分析实现数据融合处理的可追溯。同时，可分析数据的数据价值。智慧数据目录：数据资产目录提供自定义目录编目、标签系统、资产快速检索，同时支持用户搭建全局知识库，沉淀业务理解。数据可视化：产品将图形语法产品化，用户无需掌握编程，简单拖拉拽即可进行可视化分析数据隐私：针对些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护我们用网易易数官网的典型架构图进行说明：图中从数据采集、存储、开发和业务支持提供了一站式的服务。并且在此之上支持了以下的数据产品：下面是几个典型的一站式数据平台的实施方案：微众银行一站式大数据平台建设方案微众银行基于海量数据、数据孤岛等痛点，微众银行的业务模式要求大数据平台解决方案必须：支持海量数据一站式的数据存储和用户体验符合金融级别的可靠性、安全性的要求自主可控低成本在明确大数据平台的目标和要求之后，微众银行形成了一个基于大数据生态的套件平台

大数据真好玩 -

2021年5月25日

简单回答：SparkSQL数据抽象和SparkSQL底层执行过程

2.0中将DataFrame与Dataset合并，其中DataFrame为Dataset特殊类型，类型为Row。针对RDD、DataFrame与Dataset三者编程比较来说，Dataset

大数据真好玩 -

2021年5月20日

实时数仓建设思考与方案记录

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜前言随着我司业务飞速增长，实时数仓的建设已经提上了日程。虽然还没有正式开始实施，但是汲取前人的经验，做好万全的准备总是必要的。本文简单松散地记录一下想法，不涉及维度建模方法论的事情（这个就老老实实去问Kimball他老人家吧）。动机随着业务快速增长，传统离线数仓的不足暴露出来：运维层面——所有调度任务只能在业务闲时（凌晨）集中启动，集群压力大，耗时越来越长；业务层面——数据按T+1更新，延迟高，数据时效价值打折扣，无法精细化运营与及时感知异常。实时数仓即离线数仓的时效性改进方案，从原本的小时/天级别做到秒/分钟级别。底层设计变动的同时，需要尽力保证平滑迁移，不影响用户（分析人员）之前的使用习惯。指导思想：Kappa架构计算引擎硬性要求批流一体化——能同时进行实时和离线的操作；提供统一易用的SQL

大数据真好玩 -

2021年5月18日

Spark数据倾斜问题解决方案全面总结

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。为何要处理数据倾斜（Data

大数据真好玩 -

2021年5月16日

企业数据湖构建和分析方案

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜什么是数据湖？数据湖是一个集中的存储库，允许您以任何规模存储所有结构化和非结构化数据。您可以按原样存储数据，而不必首先构造数据，并运行不同类型的分析—从仪表板和可视化到大数据处理、实时分析和机器学习，以指导更好的决策。为什么需要数据湖？通过数据成功创造商业价值的组织将胜过同行。Aberdeen

大数据真好玩 -

2021年5月15日

一次成功的FlinkSQL功能测试及实战演练

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜FlinkSQL功能测试及实战演练前言：Flink在国内的占有率逐步提升的情况下，各项组件的功能与稳定性也得到逐步提升。为了解决目前已有的复杂需求，尝试研究flinksql的特性与功能，作为是否引入该组件的依据。同时尝试将现有需求通过简单demo的形式进行测试。本次测试主要集中在Kafka、mysql、Impala三个组件上，同时将结合官方文档进行：https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/1

大数据真好玩 -

2021年5月14日

实时数仓ClickHouse学习小指南

key的数据在磁盘上连续存储，且有序摆放。在进行等值、范围查询时，where条件命中的数据都紧密存储在一个或若干个连续的Block中，而不是分散的存储在任意多个Block，

大数据真好玩 -

2021年5月13日

【大数据技术与架构】2021年大数据面试进阶系列系统总结

如何处理大数据中的数据倾斜面试系列：十个海量数据处理方法大总我们常说的海量小文件的根源是什么？28道关于ZooKeeper的面试题【数据白皮书重磅分享】推荐|埋点|用研|标签1万2千字长文助力春招

大数据真好玩 -

2021年5月6日

背景调查时在调查些什么？

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源经常有小伙伴私信或者在群里讨论入职前背景调查的内容，在这里我参考了一些网上的资料和几个同事、读者的经历，供大家参考：身份基本信息：1、身份证信息；2、有否吸毒史；3、有无犯罪记录；社会信誉：4、官司诉讼；5、法律纠纷；6、征信记录是否良好；学历证书：7、第一学历；8、第一学位；9、第二学历；10、第二学位；11、执业证书(如果有)；身份附加信息：12、无严重病史；13、婚否；14、名下公司信息；15、名下无其他劳务合同；16、社保正常缴纳；最近一份履历：17、上家公司名称正确并存在；18、上家HR的姓名及联系方式正确并存在；19、上家的职位真实；20、上家的报到日期真实；21、上家的离职日期真实；22、上家的月基本工资真实；23、上家的奖金情况真实；24、上家工作证明人及联系方式真实并存在；25、上家主管的姓名真实；26、上家主管的职位真实；27、上家主管的联系方式真实并存在；28、上家主管的评价是否积极；29、上家下属人数真实；30、上家下属姓名及联系方式真实并存在；31、上家奖惩情况；32、上家离职原因；33、上家是否有竞业协议、劳务纠纷、保密协议；再前一份履历：34、上上家公司名称真实；35、上上家的职位真实；36、上上家的报到日期真实；37、上上家的离职日期真实；38、上上家工作证明人真实；39、上上家主管的姓名和职位真实；40、上上家是否有竞业协议、劳务纠纷、保密协议。几个特别容易栽跟头的简历问题，例如：合并工作经历，学历故意模糊化(三本附属学院变985这种)，伪造收入证明，一旦被查出都会被认为是严重失信。还有一些常识问题，例如非本人无法查询社保、公积金等等，这些信息在专业的背景调查公司面前都不是问题。也会有人质疑背景调查的合法合规性，现在来看只要你签了背景调查意向书，那基本就是随便查了。调查内容随着级别、薪酬稍有不同，这几年背调越来越严格和专业，因为行业内卷化，大量从业人员涌入。宁错杀，不放过。「诚信」是立身之本。缓存之王

大数据真好玩 -

2021年5月6日

Elasticsearch搜索性能优化实践，单机QPS提升120%

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜随着互联网的快速发展，网络上的数据也在不断增多，各类文章、图片、视频都充斥于各类网站和应用程序之中，用户如果想要在这些海量的信息中寻找和获取自身所喜爱的内容，就会需要使用搜索的功能。而面对这样海量复杂的数据，传统数据库搜索无法实现

大数据真好玩 -

2021年5月5日

新手友好 | Hadoop-架构、原理、实时计算和离线计算

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜文章目录一、什么是Hadoop二、Hadoop各个组件的作用三、Hadoop核心组件的架构3.1、HDFS3.2、MapReduce3.3、YARN四、实时计算和离线计算的过程后端系统通常会有一些需要超大数据集分析的业务场景，比如A/B

大数据真好玩 -

2021年4月28日

一网打尽 | 浅谈数仓如何分层

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜每个公司的数仓分层各有不同，根据具体业务进行划分，但是万变不离其宗，数仓分层无外乎就几大类。在阿里巴巴的数据体系中，将数据仓库分为三大层（五小层），自下而上为：数据引入层（ODS，Operation

大数据真好玩 -

2021年4月27日

Spark报错与日志问题查询姿势指南

Delay”，这一列如果大多是0ms到2ms左右，说明各批次处理没有明显的延迟，如果ms数较大则可能需要关注前面批次的调度延迟情况，如下图所示：二、常见问题判断与解决方法2.1、数据倾斜在Spark

大数据真好玩 -

2021年4月25日

Spark常见错误问题汇总

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源大数据技术与架构点击右侧关注，大数据开发领域最强公众号！暴走大数据点击右侧关注，暴走大数据！一.SparkSQL相关在执行insert

大数据真好玩 -

2021年4月24日

提交Spark作业 | 科学设定spark-submit参数

spark-submit参数的设定有一定的准则可循，但更多地是根据实际业务逻辑和资源余量进行权衡。CDH大数据集群Linux系统参数调优一致性哈希及其在Greenplum中的应用ClickHouse

大数据真好玩 -

2021年4月22日

CDH大数据集群Linux系统参数调优

2。当剩余内存低于high值时，系统会认为内存有一定的压力。当剩余内存低于low值时，守护进程kswapd就会开始进行内存回收。当其进一步降低到min值时，就会触发系统的直接回收（direct

大数据真好玩 -

2021年4月20日

ClickHouse 在字节跳动内部演化与应用

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜经典面试题：ES如何做到亿级数据查询毫秒级返回？kafka

大数据真好玩 -

2021年4月18日

经典面试题：ES如何做到亿级数据查询毫秒级返回？

索引数据文件，那么你搜索的时候就基本都是走内存的，性能会非常高。性能差距究竟可以有多大？我们之前很多的测试和压测，如果走磁盘一般肯定上秒，搜索性能绝对是秒级别的，1秒、5秒、10秒。但如果是走

大数据真好玩 -

2021年4月17日

kafka key的作用一探究竟，详解Kafka生产者和消费者的工作原理！

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜主题和日志对于每个主题，Kafka群集都会维护一个分区日志，如下所示：每个分区（Partition）都是有序的(所以每一个Partition内部都是有序的)，不变的记录序列，这些记录连续地附加到结构化的提交日志中。分区中的每个记录均分配有一个称为偏移的顺序ID号，该ID

大数据真好玩 -

2021年4月13日

Grafana Labs发布企业级日志记录解决方案Enterprise Logs

Logs，企业员工能依照权限，存取相关的日志，即便是敏感或是受监管的产业，也可以利用内建的界面，简单地管理权限，在不影响资源成本的情况下，授与使用者需要的权限。Grafana

大数据真好玩 -

2021年4月11日

Flink SQL流式聚合Mini-Batch优化原理浅析

inputTransform.getParallelism());}可见，根据作业时间语义的不同，产生的算子也不同(本质上都是OneInputStreamOperator)。先看processing

大数据真好玩 -

2021年4月8日

Flink在实时计算平台和实时数仓中的企业级应用小结

为代表的离线计算开始进入各大公司的视野。大数据领域开始了如火如荼的发展。我个人在学校期间就开始关注大数据领域的技术迭代和更新，并且有幸在毕业后成为大数据领域的开发者。在过去的这几年时间里，以

大数据真好玩 -

2021年4月7日

苏宁 OLAP 引擎发展之路

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜个推数据服务平台建设实践Apache

大数据真好玩 -

2021年4月5日

个推数据服务平台建设实践

的一场编译之旅Yarn运行中的任务如何终止？Flink结合Kafka实时写入Iceberg实践笔记

大数据真好玩 -

2021年4月2日

Apache Doris 的一场编译之旅

librdkafkaLIBRDKAFKA_DOWNLOAD="https://github.com/edenhill/librdkafka/archive/v0.11.6-RC5.tar.gz"#

大数据真好玩 -

2021年3月31日

Yarn运行中的任务如何终止？

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜前言我们的作业是使用yarn来调度的，那么肯定就需要使用相关的命令来进行管理，简单的有查询任务列表和killed某一个正在运行中的任务。一、Yarn常用命令以下是基于yarn客户端使用命令行的方式进行：yarn

大数据真好玩 -

2021年3月24日

数据仓库中的增量&全量

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜数据仓库的两个重要的概念是：进入仓库的数据不可变记录数据的变化历史如何理解呢？不可变，意味着进到仓库的数据就类似归档了。原则上，不能对仓库里面的数据进行修改；如果随意的对仓库里面的数据进行修改，这个“仓库”就和交易系统没区别了，无法起到正确反映业务过程的作用。此外，适合于数据仓库的存储服务，如早年Oracle和DB2都有针对数据仓库的Data

大数据真好玩 -

2021年3月20日

Flink结合Kafka实时写入Iceberg实践笔记

t_kafka_03{"user_id":"a1111","order_amount":11.0,"log_ts":"2020-06-29

大数据真好玩 -

2021年3月17日

浅谈数仓建模及其方法论

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜1.数仓的定义:2.数据仓库和数据库的区别:数仓的发展1.简单报表阶段：这个阶段，系统的主要目标是解决一些日常的工作中业务人员需要的报表，以及生成一些简单的能够帮助领导进行决策所需要的汇总数据。这个阶段的大部分表现形式为数据库和前端报表工具。2.数据集市阶段：这个阶段，主要是根据某个业务部门的需要，进行一定的数据的采集，整理，按照业务人员的需要，进行多维报表的展现，能够提供对特定业务指导的数据，并且能够提供特定的领导决策数据。3.数据仓库阶段：这个阶段，主要是按照一定的数据模型，对整个企业的数据进行采集，整理，并且能够按照各个业务部门的需要，提供跨部门的，完全一致的业务报表数据，能够通过数据仓库生成对对业务具有指导性的数据，同时，为领导决策提供全面的数据支持。通过数据仓库建设的发展阶段，我们能够看出，数据仓库的建设和数据集市的建设的重要区别就在于数据模型的支持。因此，数据模型的建设，对于我们数据仓库的建设，有着决定性的意义。数仓建设的意义1.理清业务数据：随着数据量和业务数据表的不断扩张，需要我们理清数据作用域，就是做什么的，可以清晰的找到数据来源。能够帮助我们的企业或者是管理机关对本单位的业务进行全面的梳理。通过业务模型的建设，我们应该能够全面了解该单位的业务架构图和整个业务的运行情况，能够将业务按照特定的规律进行分门别类和程序化，同时，帮助我们进一步的改进业务的流程，提高业务效率，指导我们的业务部门的生产。2.避免重复计算：为了避免多次计算，多次关联多张表，分层可以保存中间结果，减小开发成本。3.增加数据使用便捷性：仓库层的设计，让数据能分析，好分析，能支持大部分的数据需求。建立全方位的数据视角，通过数据仓库的模型建设，能够为企业提供一个整体的数据视角，不再是各个部门只是关注自己的数据，而且通过模型的建设，建立出了部门之间内在的联系，帮助消灭各个部门之间的信息孤岛的问题，统一数据口径，保证数据质量，避免出现统一指标多种概念，通过数据模型的建设，各个部门之间数据的差异将会得到有效解决。4.解决业务的变动

大数据真好玩 -

2021年3月9日

你爱或者不爱，他都在那里 - 云/边/端三协同下的边缘计算

「点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源科普时间首先，我们要来科普一下『边缘计算』。你去百度或者Google搜索，会有一大段的概念映入眼帘：在百度百科上：边缘计算，是指在靠近物或数据源头的一侧，采用网络、计算、存储、应用核心能力为一体的开放平台，就近提供最近端服务。其应用程序在边缘侧发起，产生更快的网络服务响应，满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。边缘计算处于物理实体和工业连接之间，或处于物理实体的顶端。而云端计算，仍然可以访问边缘计算的历史数据。在维基百科上：边缘运算（英语：Edge

大数据真好玩 -

2021年3月8日

Kafka HA Kafka一致性重要机制之ISR

Commit过的消息,因此会造成数据丢失可用性较高Kafka学习笔记之概述、入门、架构深入【大数据哔哔集20210127】Kafka企业搭建之核心参数详解

大数据真好玩 -

2021年3月6日

Kafka学习笔记之概述、入门、架构深入

consumer.properties，在文件末尾加一行exclude.internal.topics=falsebin/kafka-console-consumer.sh

大数据真好玩 -

2021年3月4日

数据治理在快手的实践

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜数据治理构成了公司范围内数据管理的基础，并使有效使用可信赖的数据成为可能。数据的有效管理是一项重要任务，需要集中控制机制。为了帮助最终用户更好地理解这个复杂的主题，本文介绍了以下几点：

大数据真好玩 -

2021年2月6日

阿里数据专家的数据平台实战笔记

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多惊喜本文是友盟数据技术专家谭纯发表在UBDC会议上的观点，文中全景呈现了友盟数据智能平台的架构、能力和面临的挑战。简介：2020年注定是不同寻常的，突如其来的疫情按下了人们生活的暂停键。对于用户激增的App而言有喜有忧，如何快速沉淀数据资产，因为疫情是脉冲式的需求，等疫情结束之后，如何把这些激增的用户转化为留存是很大的挑战。对于非利好的App，如何让数据成为护城河。回答这两个问题，数据智能平台的建设尤其重要。背景从友盟+公开的移动互联网数据报告来看，疫情期间移动互联网设备活跃度稳步提升。其中游戏行业增幅15%，是2019年的2倍；影视增幅8%，是去年的3倍左右；办公通讯上涨明显，增幅150%，网上药店活跃设备增幅由负转正，增幅61%；旅游与汽车的降幅是去年的3-4倍，分别下跌55%及29%。疫情后的机会点：1.拉新变留存。对于用户激增的App而言有喜有忧，因为疫情是一个脉冲式的需求，等疫情结束之后，如何把这些激增的用户转化为留存是一个很大的挑战。实时化的数据资产的沉淀成为挑战。这时候需要修炼好数据的内功，重视数据资产的沉淀，运营好自己的私域数据池。2.智能化运营。有的数据的底料，我们可以更加的进行精细化的一些运营。比如分层运营，智能营销，实现业务的数据化，并且让数据指导业务的发展提供前提。3.练好数据的内功。建设数据智能平台。数据也是资产，数据智能平台的建设，好比把矿石炼成98号的汽油，再通过清洁的能源向业务不断赋能的过程。什么是数据智能平台数据智能研发平台，是基于数据基础能力，打造专业、高效、安全的一站式智能研发平台。支持实时与离线数据集成、开发运维、工作流调度、数据质量、数据安全的全链路数据管理，满足数据治理、数据血缘、数据质量、安全管控，标签应用的需求。面临的挑战挑战主要集中在4个方面，从算力、数据、算法以及业务：基础设施的建设不是一触而就的，需要大量的人力物力财力。主要是机房、机架、网络、带宽。数据分成两个部分，基础数据以及标签的数据，那么基础数据存在的问题是缺乏统一的建设标准以及质量的评估。我们知道欧盟有很多的成员国，成员国之前是各自发行货币的，不利于整体经济的发展。数据也是一样，需要同样的标准去建设，促进数据的一个流通，这是基础数据存在的问题。对于标签数据而言，我们的生产管理服务应用整个链路是断裂的，无法最大的提高一个标签生产的效率。算法工程上，烟囱式的垂直类的一个开发，比如说广告和搜索，它在特征到工程上面都是重复开发的。业务上，数据的建设周期比较长，赶不上业务的一个发展。体系介绍底料篇以友盟+为例。经过了9年专业的大数据的服务，积累下了PC网站的

大数据真好玩 -

2021年1月30日