-
字节跳动基于Flink的MQ-Hive实时数据集成
背景 在数据中台建设过程中,一个典型的数据集成场景是将 MQ (Message Queue,例如 Kafka、RocketMQ 等)的数据导入到 Hive 中,以供下游数仓建设以及指标统计。由于...
-
Apache Flink 在网易的实践
分享嘉宾:吴良波@网易 整理编辑:王洪达 内容来源:Flink Forward Asia 导读: 网易内部最开始基本上都是使用 Storm 来处理实时的计算任务,比较主要的...
-
两万字深度介绍分布式系统原理
1 概念 1.1 模型 节点 在具体的工程项目中,一个节点往往是一个操作系统上的进程。在本文的模型中,认为节点是一个完整的、不可分的整体,如果某个程序进程实际上...
-
skywalking实现分布式系统链路追踪
一、背景 随着微服务的越来越流行,我们服务之间的调用关系就显得越来越复杂,我们急需一个 APM 工具来分析系统中存在的各种性能指标问题以及调用关系。目前主流的APM工具有 CAT 、 Zipki...
-
MySQL 8 查询优化新工具 Explain Analyze
1. Explain Analyze 介绍 Explain是我们常用的查询分析工具,可以对查询语句的执行方式进行评估,给出很多有用的线索。 但他仅仅是 评估 ,不是实际的执行情况,比如结果...
-
主机Redis服务迁移到现有Docker Overlay环境
记录最后一次对中型2C企业级项目的容器化改造 hello, 好久不见,之前文章记录了一个实战的2C分布式项目的改造过程,结果如下: 其中Redis并未完成容器化改造(目前是主机单点...
-
HBase的优化
一、HBase的优化 1,高可用 在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServe...
-
使用Kubeflow构建机器学习流水线
企业级开源云原生容器存储解决方案Longhorn已经GA,第一期网研会紧锣密鼓上线啦!下周二(6月23日)晚上8点,由Rancher中国资深技术支持工程师将线上分享Longhorn的功能和架构介绍,还...
-
TKE 集群组建最佳实践
K8S 版本迭代比较快,新版本通常包含许多 bug 修复和新功能,旧版本逐渐淘汰,建议创建集群时选择当前 TKE 支持的最新版本,后续出新版本后也是可以支持 Master 和 节点的版本升级的。 ...
-
手把手教你用 30 分钟搭建一个网盘
code小生 一个专注大前端领域的技术平台 公众号回复 Android 加入安卓技术群 本文出处:码匠笔记公众号 Pandownload 下线大家心里都很苦,不过我们还是的重新站起来...
-
字节跳动分布式表格存储系统的演进
本文选自“字节跳动基础架构实践”系列文章。 “字节跳动基础架构实践”系列文章是由字节跳动基础架构部门各技术团队及专家倾力打造的技术干货内容,和大家...
-
使用Apache Spark和Apache Hudi构建分析数据湖
1. 引入 大多数现代数据湖都是基于某种分布式文件系统(DFS),如HDFS或基于云的存储,如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。...
-
基于对象存储的离线大数据处理架构和应用实践
文章作者:熵简大数据团队 内容来源:熵简学院 导读: 熵简科技大数据处理系统目前已经累计完成 3.7 PB 规模的大数据处理和分析,覆盖了超 2000+ 数据源,涉及丰富的数据类...
-
Docker学习文档大全
我们的口号是:再小的帆也能远航,人生不设限!! 一、学习规划: Docker概述 Docker 安装 Dock...
-
基于MongoDB的KOC项目实战分享
这篇文章是小伙伴写的,主要分享MongoDB应用实战,MongoDB是MySQL的有效补充,也能作为大数据分析的桥梁,个人是非常看好,在很多场景下可以好好利用,具体文章可以见文末[原文连接]。 ...
-
10 分钟快速入门云原生存储组件 etcd
etcd 由 CoreOS 团队于 2013 年 6 月发起的开源项目,2018 年 12 月正式加入云原生计算基金会(CNCF)。etcd 是云原生架构中重要的基础组件,基于 Go 语言实现,目前最...
-
HBase Region Read Replicas功能详解
本文讲述了 HBase Region Read Replicas功能详解 往期文章回顾: Talos 读写一致性 CAP原理指出,对于一个分布式系统来说,不可能同时满足一致性 (C...
-
4 个好用的 Linux 监控工具
身为一个运维开发人员,如果你不知道眼下当前服务器底层操作系统中正在发生什么,那就有点合眼摸象了。其实,你可以根据相应数据做出一定的推测,但是要做到这一点,就需要原始数据,并且数据要有一定的实时...
-
Apache Hudi在医疗大数据中的应用
本篇文章主要介绍Hudi在医疗大数据中的应用,主要分为5个部分进行介绍:1. 建设背景,2. 为什么选择Hudi,3. Hudi数据同步,4. 存储类型选择及查询优化,5. 未来发展与思考。 1...
-
一篇文章,全面掌握Git
版本控制 版本控制就是记录项目文件的历史变化。它为我们 查阅日志 , 回退 , 协作 等方面提供了有力的帮助。 版本控制一般分为集中化版本控制和分布式版本控制。 集中...