NX の博客

发表于2022-09-10|随笔与总结

嗯…如你所见，我最近停更了好久，因为暑假发生了一堆的事情，让我的心态很差而且，我也没能完成我的暑假开始立的 Flag 我本来写了很长一段话想说明情况，但是最后还是删掉了，还是不提了吧已经浪费了太多时间，就更要抓紧现在的时间，赶紧让生活步入正轨，去做更多有意义的事情来聊些轻松些的吧！比如最近还发生了哪些正面的事情呢？最近的好事情考试顺利通过暑假的时候，得知自己六级裸考过了，还是挺高兴的六级的话，不要太焦虑就行了，我四六级一张卷子都没做过，就考前 B 站上找些视频看看就去考了这东西越早考越好，其实高考一考完就去考，我不相信有人过不了，毕竟我的英语水平也好不到哪里去，这东西越往后拖越难考另外一个就是驾照了，我把科目三考过了科目三就是好好记路线+不要紧张就行了，考试前一晚自己在脑海里过一边路线，看看有没有地方没记住的把每个细节都拿捏住了，基本就没有什么大问题青训营顺利结营第四届字节跳动青训营顺利结束了，虽然没有拿到大项目的奖，但是也能拿到结营证书，这也算是一件好事情至少有个交代嘛，而且这东西最后也就大概 50 个人拿到了而且前几天，我也拿到上一届的证书和纪念品了这东西在我放暑假回家了才送到学校，所以只能放同学那里，等开学再过来拿（重装了系统细心的你肯定已经发现了，我现在用的不是 Windows 了那是 Mac OS 嘛？其实不是，只是我的 Ubuntu 装了个 Mac 的主题最近我装了个 Windows + Linux 双系统，并开始把 Linux 作为主力使用，只有打游戏的时候才用 Windows Windows 和 Linux 各 ...

『Go』使用 Redis 搭建简易分布式锁

发表于2022-08-31|Golang

本篇总结于 Go + Redis 实现分布式锁鄙人最近在参加分布式存储的项目时学习了本内容，特此记录为什么要用到分布式锁先从本地的锁开始吧，在 Golang 中可以对本地的某一资源进行加锁（如变量等），以保证你在使用该资源的时候不会被其他协程更改而在分布式系统中，若各个节点要同时使用某一个公共资源（比如说交易要修改用户存款，进程修改日志文件等），很容易就会有读写冲突、写写冲突。这时就需要一种抢占资源的机制，在你使用的时候锁住资源，保证你在使用的时候其他人不会捣乱，确保并发安全而一种简单的实现方法就是使用 Redis 搭建分布式锁简单的原理这东西听上去很高大上，但是其实非常简单就是你在访问资源前，先尝试在 Redis 处做个标记例如你欲编辑 /file/hello.txt ，就尝试将 ["/file/hello.txt"] = 1 写入 Redis 而其他人也想做标记的时候，就会发现你已经做过了，就知道你已经抢占了资源，要等你释放项目实践本人的项目地址：https://github.com/tiktok-dfs/dfs 首先肯定要初始化 Redis ，因为项目是本地单机测试的，所以就以单机服务为例 1234567891011var RedisDB *redis.Client// InitRedis 初始化redis，用于分布式锁func InitRedis() { RedisDB = redis.NewClient(&redis.Options{ Addr: "localhost:6379& ...

『Go』gRPC + Protocol Buffers 简易上手指南

发表于2022-08-20|Golang

鄙人最近在参加青训营的项目，要完成一个分布式存储系统，里面就用到了 gRPC 框架，学习之后有所收获，所以特此记录理论知识什么是 RPC 要知道什么是 gRPC ，先要了解 RPC（Remote Procedure Call，远程过程调用）什么叫做远程过程调用捏？比如说，你在写程序的时候，可以很方便地调用你本地写的函数，但是，如果你想调用其他程序的函数，那该怎么办呢？答案是使用 RPC ，它做到这一点，即使目标函数的程序跑在地球的另一边，都没有问题什么是 gRPC gRPC 是一个出名的 RPC 框架，它速度很快，而且支持多种语言，它允许你可以在 Go 中调用 Java 乃至 Python 中的函数多语言支持是怎么做到的呢？那中间必然是要借助某种通用介质，在这里就是 Protocol Buffers 什么是 Protocol Buffers Protocol Buffers 是谷歌搞的一种数据交换格式（就类似于 JSON ，XML 之类的），常被简写成 protobuf 但是与 JSON 之类不同的是，Protocol Buffers 不是明文存储的，而是压缩打包成二进制的，这也就是 gRPC 选择 Protocol Buffers 的原因，毕竟传输起来方便你要先通过 .proto 文件定义好你的数据结构和调用函数，然后用编译器编译出 xxxxx.pb.go 文件（里边有一堆打包和解包相关的函数方法）和 xxxxx_grpc.pb.go （里边是关于 RPC 的函数方法），之后在你的项目里调用就好了上手实践准备环境根据官网上的教程，你有两件事要做：安装 ...

『字节青训营-4th-大数据』L20：大数据可视化理论与案例分析

发表于2022-08-20|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料七】第四届字节跳动青训营 - 掘金定义什么是可视化什么是数据可视化静态/不可交互 -> 动态/可交互数据可视化作用拿破仑进攻/撤退图，粗细表示军队人数，与下面的温度图表有很强的关联性统计学特征原理数据定义数据和数据集表格多维表格网络图和树图场几何数据属性分类编码认知图元通道编码举例编码有效性交互分类（几个gif）案例这个太经典了这个也经典，后面销量其实是下降的历史上的传染病人口死亡规模很多人没有达到预测年龄就被枪击死亡了（动图）学习综合理论编程前沿实践我们在做的事情课程总结

『字节青训营-4th-大数据』L19：用户数据分析理论与最佳实践

发表于2022-08-19|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料七】第四届字节跳动青训营 - 掘金 P1：基础篇为什么要做用户数据分析数据分析的各个环节数据分析全景图指标体系和指标分级手游业务指标体系示意口径：你怎么算出来的搭建指标体系的价值数据分析的各个环节埋点简介常见的分析工具维度：分组项（日期和操作系统），指标：设备去重数聚和，最大最小… 可以，但一般会先划分数据可视化选择合适的数据分析的流程和案例分析流程案例获取激活思考各个环节，哪些是要重点改进的地方留存收入可以得出结论，这个游戏就是靠头部用户来维持运营的，来指导产品经营数据分析常见的问题总结&思考 P2：进阶篇机器学习概览为什么要机器学习什么是机器学习例：垃圾邮件过滤程序开发者自己从现有的样本提取特性信息，对于新的样本又要手动增加过滤规则使用机器学习，自动总结、添加规律机器学习算法有哪些机器学习的挑战有哪些特征工程概述流程数据理解结构化/非结构化定量/定性数据预处理衡量数据质量准确性完整性一致性时效性可信性解释性主要步骤数据清洗缺失值异常值噪声数据集成实体识别冗余数据值冲突数据规约维度规约维度变换数据交换规范化离散化稀疏化特征构造聚合转换特征选择 Filter 方法（过滤式） Wrapper方法（封装式） Embedded方法（嵌入式）（这些在学习资料 ...

『字节青训营-4th-大数据』L18：数据中心建设实践思路与企业实践

发表于2022-08-17|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料六】第四届字节跳动青训营 - 掘金企业数据架构数据集成业务数据收集 CDC Log 系统间同步传输数据生产 - 离线&实时数据服务数据中心案例核心业务指标数据查询要求实时数据生产数据分析数据产出目标数据生产可行性计算分析目标计算架构 - Lambda 数据产出查询的时候把离线和实时合并后返回问题过去的离线数据在今天发生变更，这是一个问题计算架构 - 全量计算问题解决全量计算问题计算架构 - 架构选择计算难点全量数据获取 - Hybrid Source 准确 - 处理去重&更新准确 - Join 乱序问题场景效率 - 聚合效率 - Join 数据质量任务稳定性数据持续正确性计算总结数仓建设数据组织方案元数据管理数据服务查询快引擎选择怎么做列存的重要性筛选分区主键构建主键查找原始信息关联计算向量化执行计划应用优化宽表构建提升信息密度稳定数据管理课程总结

『字节青训营-4th-大数据』L17：深入理解 K8S 资源管理和调度

发表于2022-08-16|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料六】第四届字节跳动青训营 - 掘金 Kubernetes 简介为什么要 k8s k8s 是什么 k8s 核心概念 Pod spec：pod的核心配置，可以配置多个 containers Volume/PV/PVC/StrorageClass Volume 太老了直接跳过 Deployment template 就是一个 pod 的声明 StatefulSet Node k8s 设计准则声明式而不是命令式：告诉 k8s 最终想要什么状态，而不是具体要做什么做什么控制循环：怎么生成中间步骤呢？通过控制循环简单模块化向下兼容开放 k8s 架构 k8s 核心通信机制 List-Watch 这里老师讲得真的很清楚，而且认为这个机制是 k8s 最大的特色 k8s 核心功能资源管理资源上报节点资源样例资源分配状态维护资源回收调度资源申请 request和limits：底线和上限调度流程示例 MySQL WordPress 优化实践 k8s 还可以更好字节的一些工作资源管理功能增强性能优化调度质量 k8s 和 Yarn 的一些不同 k8s：拿着应用找节点 yarn：拿着节点找应用 k8s的调度质量高，但是性能差课程总结

『字节青训营-4th-大数据』L16：走进 Yarn 资源管理和调度

发表于2022-08-14|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料六】第四届字节跳动青训营 - 掘金 YARN 概述初识调度系统场景导入一种简易分配模型优化的分配模型调度系统演进调度系统发展的背景调度系统解决的问题调度系统预达的目标调度系统模型主要是前两者用的比较多 YARN 设计思想演化背景离线生态面临挑战 YARN 整体架构系统架构任务运行生命周期核心流程这里视频里讲得很清楚 Client 把任务提交到 Resource Manager，然后 RM 会拉起 AM AM 再用心跳交互资源的申请和分配，再去拉起对应的节点运行中，AM 会监控，运行结束后 AM 会向 RM 注销核心模块 Resource Manager 整体架构主要职责状态机管理 RMApp 状态机 RMAppAttempt RMContainer RMNode 调度器分析任务/资源组织调度流程典型调度器 Node Manager 整体架构主要职责状态机管理 Application Container LocalizedResource 节点健康检测机制重要机制调度策略 Fair Share 调度策略背景 Instantaneous Fair Share 定义 Instantaneous Fair Share 计算逻辑 DRF 调度策略 DRF 调查策略描述 DRF 调度策略计算逻辑事件机制状态机管理事件处理模型容错机制公司实践 Gang 调度器为什么要开发 Gang 调度器 ...

『字节青训营-4th-大数据』L15：浅谈分布式一致性协议

发表于2022-08-13|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料六】第四届字节跳动青训营 - 掘金分布式系统分布式系统面临的挑战理想中的分布式系统从 HDFS 开始案例 - KV 小结一致性与共识算法从复制开始最好不要都接受请求，应设置一个主一个从如何复制两种策略，但是第一种的代价太高了关于读操作什么是一致性复制协议当失效发生小结共识算法小结从 Raft 入手 Paxos Raft 复制状态机（RSM） Raft 角色客户端向 s2 发送请求 s2 把请求转成 log ，然后发送给 follower 多数完成，就回复客户旧 leader 无响应后，发现的节点发起投票，获得半数投票即成为新 leader Raft 日志复制小箭头：确认已经提交了的 log Raft 从节点失效没有真正对比 log 的内容，只需要对比 term 和 index Raft Term Raft 主节点失效 Raft Leader failure 格子上面的数字是几号 term 为什么第一个状态 s1 的 term 都是 1 ？可以想象之前 s1 是 leader，然后突然卡死了，选了 s2 是新 leader 此时 s2 挂了，然后 s3 请求成为 leader ，s1 的 term 后面也变成了 3 状态是怎么复制的呢？一直往前检查，如果有冲突就从节点服从主节点 Raft 安全性同 Term 跨 Term 小结实现细节以及未来案例 - KV 为什么读操作不能直接读的问题回到共 ...

『字节青训营-4th-大数据』L14：LSMT 存储引擎浅析

发表于2022-08-12|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：juejin.cn LSMT 与存储引擎介绍 LSMT 的历史 LSMT 是什么存储引擎是什么 LSMT 存储引擎的优势与实现 LSMT 与 B+ Tree 的异同但 LSMT 是追加写，然后后台择机合并二者在逻辑上实际是等价的为什么要采用 LSMT 模型？ LSMT 存储引擎的实现 Write Snapshot & Supervision Get & BloomFilter 又是熟悉的 BloomFilter（ Compact 用读放大的增加换取写放大的减小 LSMT 模型理论分析云原生的 LSMT 存储引擎 - HBase LSMT 模型算法复杂度分析 Level 这个失效率的推导非常复杂 Tier 思考题这里建议看原视频，鄙人一直在听天书（总结 LSMT 存储引擎调优案例与展望 TerarkDB TerarkDB& Abase & ByteGraph Flink 新硬件新模型新参数 / 新工况这个是最复杂的总结

『字节青训营-4th-大数据』L13：Parquet 与 ORC：高性能列式存储

发表于2022-08-10|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料五】第四届字节跳动青训营 - 掘金列存 vs 行存数据格式层概述分层视角下的数据形态两种数据查询分析场景：OLTP vs OLAP OLTP：行式存储格式 OLAP：列式存储格式总结 Parquet 原理解释 Parquet 简介 Parquet in Action DDL Spark Parquet vs Text Format 做了压缩，而且性能反而还会有提升 Dremel 数据模型数据布局编码 Encoding 列基数不大：去重后的数据不多压缩 Compression 索引 Index 这东西在第一节课也出现了排序 Ordering 过滤下推 Predicate PushDown Spark 集成 - 向量化读深入 Dremel 数据模型老师说听不懂没关系，哈哈哈小结 ORC 详解和对比 ORC 简介数据模型数据布局 ACID 特性简介 AliORC 索引增强小列聚合异步读取思考 Parquet vs ORC 性能选择小结列存演进数仓中的列存存储侧下推 Column Family 支持总结

『字节青训营-4th-大数据』L12：从 Kafka 到 Pulsar：数据流演进之路

发表于2022-08-09|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料四】第四届字节跳动青训营 - 掘金消息队列概述消息队列的应用场景上下游解耦 MQ 消息通道 Eventbridge 数据总线 Data Platform 流数据平台主流消息队列的相关介绍 Kafka 详解架构介绍 Zookeeper Broker Controller 选举作用 Coordinator 高可用副本 ISR 机制写入 ACK 机制如何保证消息不丢 ACK = -1 并且最少 ISR = 2 先看左下角，只有一个 leader 而没有 follwer 的情况，然后再看上面结合右侧概念解释理解第一个策略更注重一致性第二个更注重可用性集群扩缩容扩容步骤扩缩容问题未来演进之路运维/调优经验介绍单机吞吐 in_sync_replica 看业务重要性，2或3 集群参数配置扩缩容优化指标可视化 Pulsar 详解 Pulsar 架构介绍 Pulsar Proxy 非必须，但是作用很大 Pulsar Broker Pulsar Storage Pulsar IO Pulsar Function Bookkeeper 介绍整体架构基本概念 Bookkeeper Ledger Bookkeeper 新建 Ledger Quorum 写：副本之间没有主从概念，例如 3 副本同时写，2 副本完成就算完成 Bookkeeper Ledger 分布写一致性读一致性读写分离 Bookkeeper with p ...

『字节青训营-4th-大数据』L11：数据湖三剑客：Delta Lake、Hudi 与 Iceberg 详解

发表于2022-08-07|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料四】第四届字节跳动青训营 - 掘金发展历史数据湖发展阶段1 - Hadoop 数据湖发展阶段2 - Hive 数据湖发展阶段3 - 湖仓一体存储计算不分离、结构化数据业界三大数据湖关于“数据湖” 核心技术文件结构 Time travel Transaction 原子性事务隔离 Schema Evolution 各有所长 Iceberg Well-designed Metadata Layer s1 比 s0 多的就是最右边的一个 manifest file，而对应的就是最右边的 data files Data File Filter Hidden Partition Hudi Timeline Service & Upsert & Incremental 这里建议看原视频，讲的还是很清楚的 Copy On Write 更新的时候把所有列读到内存，改完再塞回去 Merge On Read 更新的时候把变动放到旁边，然后读的时候再合并 Delta Lake 流批一体总结场景三个数据湖的异同三个数据湖的热度技术选型字节场景举例课程总结

『字节青训营-4th-大数据』L10：深入浅出 HBase 实战

发表于2022-08-06|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料四】第四届字节跳动青训营 - 掘金https://juejin.cn/post/7124948585614934029#heading-0) HBase 适用场景什么是 HBase HBase 和关系型数据库的区别 HBase 数据模型这种类 JSON 的格式看上去也是很清晰的使用场景典型应用半结构化 / 字典序有序索引的数据 “近在线” 海量分布式 KV / 宽表存储写密集的高吞吐场景 HBase 数据模型的优缺点架构设计 HBase 架构设计 HMaster 主要职责 RegionServer 主要职责 ZooKeeper 主要职责 ThriftServer 主要职责大数据支撑 HBase 在大数据生态的定位水平扩展能力 Region 热点切分切分点选取切分过程流量设计 Region 碎片整合流程设计 Region 负载均衡调度策略其他策略故障恢复机制 HMaster RegionServer Distributed Log Split 原理具体流程优化空间最佳实践 Rowkey 设计策略 Column Family 设计策略参数调优经验 ByteTable - 字节跳动自研分布式表格存储系统总结

『字节青训营-4th-大数据』L9：HDFS 高可用和高扩展机制分析

发表于2022-08-05|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料三】第四届字节跳动青训营 - 掘金元数据高可用高可用的需求服务高可用的需求高可用的衡量故障度量的指标 MTTR（Mean Time To Repair）：平均修复时间，系统能多快恢复。 MTTF（Mean Time To Failure）：平均失效时间，运行到故障间的时间，一般用于不可修复的系统（制造业） MTBF（Mean Time Between Failures）：平均无故障时间，两次故障间的间隔，一般用于可修复的系统（软件）可用性的年化高可用的形式 HDFS 主备同步实现 HDFS NameNode 高可用架构理论基础 - 状态机复制和日志 NameNode 操作日志的生产消费 NameNode 块状态维护 HDFS 自动主备切换分布式协调组件 - ZooKeeper 自动主备切换流程 - Server 侧脑裂问题：多个节点都认为自己是 active，都会去写日志 Fence 机制：会阻止多个节点同时写日志自动主备切换流程 - Client 侧过去，只存一个 ND 的地址，但现在会存一组，然后依次轮询，如果是 Standby 就一直往后找，直到找到一个 active 日志系统 BookKeeper 简介 BookKeeper 架构 Quorum 机制 BookKeeper Quorum BookKeeper Ensemble 数据存储高可用单机存储的数据高可用机制 RAID RAID 方案讲解（梦回中学时代了属于是，之前 B 站见过讲了所有 RAID 的视频 ...

『字节青训营-4th-大数据』L8：HDFS 原理与应用

发表于2022-08-03|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料三】第四届字节跳动青训营 - 掘金 HDFS 基本介绍 HDFS: Hadoop Distribute File System，是 Hadoop 的一个组件 Windows 单机文件系统 Linux 单机文件系统分布式文件系统分布式存储系统 HDFS 功能特性演示环境前面两个组件是为了高可用的，本节课主要放在 NameNode 和 DataNode 上（一个演示视频）架构原理 HDFS 组件 Client 写流程 Client 读流程元数据节点 NameNode 知道 NameNode 很重要就可以了（数据节点 DataNode 关键设计 NameNode 目录树维护思考题：为什么不直接在硬盘上修改 fsimage ？ NameNode 数据放置（一个关于 block 的演示视频） DataNode 后面两个绿框里面的编号是通过哈希算出来的 HDFS 写异常处理 Lease Recovery 租约（Lease）就是一个锁 Pipeline Recovery 这是非常复杂的一部分 Client 读异常处理旁路系统异步地解决积累的问题控制面建设应用场景使用 HDFS 的公司初窥大数据生态演示：PySpark 读写 HDFS 文件（一个演示视频） ETL OLAP 查询引擎查询引擎很多种，但是都是要对 HDHS 提供支持 HBase 机器学习通过存储应用