golang源码中文,golang 源码

本文目录一览：

1、golang map源码浅析
2、Golang database/sql源码分析
3、Golang实验性功能SetMaxHeap 固定值GC
4、golang性能测试框架k6源码分析
5、golang 把中文转换为首字母的方法
6、golang unicode/utf8源码分析

golang map源码浅析

golang 中 map的实现结构为：哈希表 + 链表。其中链表，作用是当发生hash冲突时，拉链法生成的结点。

可以看到， []bmap 是一个hash table，每一个 bmap是我们常说的“桶”。经过hash 函数计算出来相同的hash值，放到相同的桶中。一个 bmap中可以存放 8个元素，如果多出8个，则生成新的结点，尾接到队尾。

以上是只是静态文件 src/runtime/map.go 中的定义。实际上编译期间会给它加料，动态地创建一个新的结构：

上图就是 bmap的内存模型， HOB Hash 指的就是 top hash。注意到 key 和 value 是各自放在一起的，并不是 key/value/key/value/… 这样的形式。源码里说明这样的好处是在某些情况下可以省略掉 padding 字段，节省内存空间。

每个 bmap设计成最多只能放 8 个 key-value 对，如果有第 9 个 key-value 落入当前的 bmap，那就需要再构建一个 bmap，通过 overflow 指针连接起来。

map创建方法:

我们实际上是通过调用的 makemap ，来创建map的。实际工作只是初始化了hmap中的各种字段，如：设置B的大小，设置hash 种子 hash 0.

注意 :

makemap 返回是*hmap 指针，即 map 是引用对象，对map的操作会影响到结构体内部。

使用方式

对应的是下面两种方法

map的key的类型，实现了自己的hash 方式。每种类型实现hash函数方式不一样。

key 经过哈希计算后得到hash值，共 64 个 bit 位。其中后B 个bit位置，用来定位当前元素落在哪一个桶里，高8个bit 为当前 hash 值的top hash。实际上定位key的过程是一个双重循环的过程，外层循环遍历所有的overflow，内层循环遍历当前bmap 中的 8个元素。

举例说明：如果当前 B 的值为 5，那么buckets 的长度为 2^5 = 32。假设有个key 经过hash函数计算后，得到的hash结果为：

外层遍历bucket 中的链表

内层循环遍历 bmap中的8个 cell

建议先不看此部分内容，看完后续修改 map中元素 – 扩容操作后再回头看此部分内容。

扩容前的数据：

等量扩容后的数据：

等量扩容后，查找方式和原本相同，不多做赘述。

两倍扩容后的数据

两倍扩容后，oldbuckets 的元素，可能被分配成了两部分。查找顺序如下：

此处只分析 mapaccess1 ,。 mapaccess2 相比 mapaccess1 多添加了是否找到的bool值，有兴趣可自行看一下。

使用方式：

步骤如下：

扩容条件：

扩容的标识： h.oldbuckets ！= nil

假设当前定位到了新的buckets的3号桶中，首先会判断oldbuckets中的对应的桶有没有被搬迁过。如果搬迁过了，不需要看原来的桶了，直接遍历新的buckets的3号桶。

扩容前：

等量扩容结果

双倍扩容会将old buckets上的元素分配到x， y两个部key 1 B == 0 分配到x部分，key 1 B == 1 分配到y部分

注意：当前只对双倍扩容描述，等量扩容只是重新填充了一下元素，相对位置没有改变。

假设当前map 的B == 5，原本元素经过hash函数计算的 hash 值为：

因为双倍扩容之后 B = B + 1，此时B == 6。key 1 B == 1, 即当前元素rehash到高位，新buckets中 y 部分. 否则 key 1 B == 0 则rehash到低位，即x 部分。

使用方式：

可以看到，每一遍历生成迭代器的时候，会随机选取一个bucket 以及一个cell开始。从前往后遍历，再次遍历到起始位置时，遍历完成。

Golang database/sql源码分析

Gorm是Go语言开发用的比较多的一个ORM。它的功能比较全：

但是这篇文章中并不会直接看Gorm的源码，我们会先从database/sql分析。原因是Gorm也是基于这个包来封装的一些功能。所以只有先了解了database/sql包才能更加好的理解Gorm源码。

database/sql 其实也是一个对于mysql驱动的上层封装。”github.com/go-sql-driver/mysql”就是一个对于mysql的驱动，database/sql 就是在这个基础上做的基本封装包含连接池的使用

下面这个是最基本的增删改查操作

操作分下面几个步骤：

因为Gorm的连接池就是使用database/sql包中的连接池，所以这里我们需要学习一下包里的连接池的源码实现。其实所有连接池最重要的就是连接池对象、获取函数、释放函数下面来看一下database/sql中的连接池。

DB对象

获取方法

释放连接方法

连接池的实现有很多方法，在database/sql包中使用的是chan阻塞使用map记录等待列表，等到有连接释放的时候再把连接传入等待列表中的chan 不在阻塞返回连接。

之前我们看到的Redigo是使用一个chan 来阻塞，然后释放的时候放入空闲列表，在往这一个chan中传入struct{}{}，让程序继续获取的时候再从空闲列表中获取。并且使用的是链表的结构来存储空闲列表。

database/sql 是对于mysql驱动的封装，然而Gorm则是对于database/sql的再次封装。让我们可以更加简单的实现对于mysql数据库的操作。

Golang实验性功能SetMaxHeap 固定值GC

简单来说， SetMaxHeap 提供了一种可以设置固定触发阈值的 GC （Garbage Collection垃圾回收）方式

官方源码链接

大量临时对象分配导致的 GC 触发频率过高， GC 后实际存活的对象较少，

或者机器内存较充足，希望使用剩余内存，降低 GC 频率的场景

GC 会 STW （ Stop The World ），对于时延敏感场景，在一个周期内连续触发两轮 GC ，那么 STW 和 GC 占用的 CPU 资源都会造成很大的影响， SetMaxHeap 并不一定是完美的，在某些场景下做了些权衡，官方也在进行相关的实验，当前方案仍没有合入主版本。

先看下如果没有 SetMaxHeap ，对于如上所述的场景的解决方案

这里简单说下 GC 的几个值的含义，可通过 GODEBUG=gctrace=1 获得如下数据

这里只关注 128-132-67 MB 135 MB goal ，

分别为 GC开始时内存使用量 – GC标记完成时内存使用量 – GC标记完成时的存活内存量本轮GC标记完成时的预期内存使用量（上一轮 GC 完成时确定）

引用 GC peace设计文档中的一张图来说明

对应关系如下：

简单说下 GC pacing （信用机制）

GC pacing 有两个目标，

那么当一轮 GC 完成时，如何只根据本轮 GC 存活量去实现这两个小目标呢？

这里实际是根据当前的一些数据或状态去预估 “未来”，所有会存在些误差

首先确定 gc Goal goal = memstats.heap_marked + memstats.heap_marked*uint64(gcpercent)/100

heap_marked 为本轮 GC 存活量， gcpercent 默认为 100 ，可以通过环境变量 GOGC=100 或者 debug.SetGCPercent(100) 来设置

那么默认情况下 goal = 2 * heap_marked

gc_trigger 是与 goal 相关的一个值（ gc_trigger 大约为 goal 的 90% 左右），每轮 GC 标记完成时，会根据 |Ha-Hg| 和实际使用的 cpu 资源动态调整 gc_trigger 与 goal 的差值

goal 与 gc_trigger 的差值即为，为 GC 期间分配的对象所预留的空间

GC pacing 还会预估下一轮 GC 发生时，需要扫描对象对象的总量，进而换算为下一轮 GC 所需的工作量，进而计算出 mark assist 的值

本轮 GC 触发（ gc_trigger ），到本轮的 goal 期间，需要尽力完成 GC mark 标记操作，所以当 GC 期间，某个 goroutine 分配大量内存时，就会被拉去做 mark assist 工作，先进行 GC mark 标记赚取足够的信用值后，才能分配对应大小的对象

根据本轮 GC 存活的内存量（ heap_marked ）和下一轮 GC 触发的阈值（ gc_trigger ）计算 sweep assist 的值，本轮 GC 完成，到下一轮 GC 触发（ gc_trigger ）时，需要尽力完成 sweep 清扫操作

预估下一轮 GC 所需的工作量的方式如下：

继续分析文章开头的问题，如何充分利用剩余内存，降低 GC 频率和 GC 对 CPU 的资源消耗

如上图可以看出， GC 后，存活的对象为 2GB 左右，如果将 gcpercent 设置为 400 ，那么就可以将下一轮 GC 触发阈值提升到 10GB 左右

前面一轮看起来很好，提升了 GC 触发的阈值到 10GB ，但是如果某一轮 GC 后的存活对象到达 2.5GB 的时候，那么下一轮 GC 触发的阈值，将会超过内存阈值，造成 OOM （ Out of Memory ），进而导致程序崩溃。

可以通过 GOGC=off 或者 debug.SetGCPercent(-1) 来关闭 GC

可以通过进程外监控内存使用状态，使用信号触发的方式通知程序，或 ReadMemStats 、或 linkname runtime.heapRetained 等方式进行堆内存使用的监测

可以通过调用 runtime.GC() 或者 debug.FreeOSMemory() 来手动进行 GC 。

这里还需要说几个事情来解释这个方案所存在的问题

通过 GOGC=off 或者 debug.SetGCPercent(-1) 是如何关闭 GC 的？

gc 4 @1.006s 0%: 0.033+5.6+0.024 ms clock, 0.27+4.4/11/25+0.19 ms cpu, 428-428-16 MB, 17592186044415 MB goal, 8 P (forced)

通过 GC trace 可以看出，上面所说的 goal 变成了一个很诡异的值 17592186044415

实际上关闭 GC 后， Go 会将 goal 设置为一个极大值 ^uint64(0) ，那么对应的 GC 触发阈值也被调成了一个极大值，这种处理方式看起来也没什么问题，将阈值调大，预期永远不会再触发 GC

那么如果在关闭 GC 的情况下，手动调用 runtime.GC() 会导致什么呢？

由于 goal 和 gc_trigger 被设置成了极大值， mark assist 和 sweep assist 也会按照这个错误的值去计算，导致工作量预估错误，这一点可以从 trace 中进行证明

可以看到很诡异的 trace 图，这里不做深究，该方案与 GC pacing 信用机制不兼容

记住，不要在关闭 GC 的情况下手动触发 GC ，至少在当前 Go1.14 版本中仍存在这个问题

SetMaxHeap 的实现原理，简单来说是强行控制了 goal 的值

注： SetMaxHeap ，本质上是一个软限制，并不能解决极端场景下的 OOM ，可以配合内存监控和 debug.FreeOSMemory() 使用

SetMaxHeap 控制的是堆内存大小， Go 中除了堆内存还分配了如下内存，所以实际使用过程中，与实际硬件内存阈值之间需要留有一部分余量。

对于文章开始所述问题，使用 SetMaxHeap 后，预期的 GC 过程大概是这个样子

简单用法1

该方法简单粗暴，直接将 goal 设置为了固定值

注：通过上文所讲，触发 GC 实际上是 gc_trigger ，所以当阈值设置为 12GB 时，会提前一点触发 GC ，这里为了描述方便，近似认为 gc_trigger=goal

简单用法2

当不关闭 GC 时， SetMaxHeap 的逻辑是， goal 仍按照 gcpercent 进行计算，当 goal 小于 SetMaxHeap 阈值时不进行处理；当 goal 大于 SetMaxHeap 阈值时，将 goal 限制为 SetMaxHeap 阈值

注：通过上文所讲，触发 GC 实际上是 gc_trigger ，所以当阈值设置为 12GB 时，会提前一点触发 GC ，这里为了描述方便，近似认为 gc_trigger=goal

切换到 go1.14 分支，作者选择了 git checkout go1.14.5

选择官方提供的 cherry-pick 方式(可能需要梯子，文件改动不多，我后面会列出具体改动)

git fetch “” refs/changes/67/227767/3 git cherry-pick FETCH_HEAD

需要重新编译Go源码

注意点：

下面源码中的官方注释说的比较清楚，在一些关键位置加入了中文注释

入参bytes为要设置的阈值

notify 简单理解为 GC 的策略发生变化时会向 channel 发送通知，后续源码可以看出“策略”具体指哪些内容

返回值为本次设置之前的 MaxHeap 值

$GOROOT/src/runtime/debug/garbage.go

$GOROOT/src/runtime/mgc.go

注：作者尽量用通俗易懂的语言去解释 Go 的一些机制和 SetMaxHeap 功能，可能有些描述与实现细节不完全一致，如有错误还请指出

golang性能测试框架k6源码分析

k6是新兴的性能测试框架，比肩jmeter，另外测试脚本使用js，更加适合自动化的架构。

k6启动的框架是使用golang的cli标准框架cobra，入口函数

进入cobra框架后，我们直接查看getRunCmd，这个是命令run的入口，主要工作都是从这里开始。

重点关注初始化Runner，这个是通过js脚本，使用goja库解析后，生成的实际执行单元。

进入js目录，查看Runner的结构，runner.go

Runner有一些配置属性，另外还有方法，方法用lib.Runner的接口进行规范。

Runner有一个NewVU方法，里面定义了连接参数，实现api测试

返回主函数，在初始化完成Runner后，启动调度器，以及做结果收集

最终封装成一个engine

启动测试

golang 把中文转换为首字母的方法

Go语言的string模块包含了ToLower和ToUpper函数，用于将字符串转换成小写和大写

代码如下:

package main

import (

“fmt”

“strings”

)

func main() {

fmt.Println(strings.ToUpper(“hello world”))

}

golang unicode/utf8源码分析

包 utf-8 实现的功能和常量用于文章utf8编码,包含runes和utf8字节序列的转换功能.在unicode中，一个中文占两个字节，utf-8中一个中文占三个字节，golang默认的编码是utf-8编码，因此默认一个中文占三个字节，但是golang中的字符串底层实际上是一个byte数组.

Output:

RuneSelf该值的字节码值为128，在判断是否是常规的ascii码是使用。hicb字节码值为191. FF 的对应的字节码为255。

计算字符串中的rune数量,原理：首先取出字符串的码值，然后判断是不是个小于128的，如果是小于则直接continue.rune个数++.

如果是个十六进制f1.的则是无效字符，直接continue.rune个数++,也就是说一个无效的字符也当成一个字长为1的rune.如果字符的码值在first列表中的值和7按位的结果为其字长，比如上面示例中的钢。其字长为三位，第一位的值为 233 .二进制形式为 11101001 ;与7按位与后的值为0.从acceptRanges中取出的结果为{locb, hicb}。也就是标识 ox80 到 0xbf 之间的值。而结果n也就是直接size+3跳过3个字节后，rune个数++。其他函数的处理流程差不多，不再过多叙述。

示例：

ValidString返回值表明参数字符串是否是一个合法的可utf8编码的字符串。

RuneCount返回参数中包含的rune数量,第一个例子中将 utf8.RuneCountInString ,改成该方法调用，返回的结果相同。错误的和短的被当成一个长一字节的rune.单个字符 H 就表示一个长度为1字节的rune.

该函数标识参数是否以一个可编码的rune开头,上面的例子中，因为字符串是以一个ascii码值在0-127内的字符开头，所以在执行

first[p[0]] 时，取到的是 p[0] 是72,在first列表中，127之前的值都相同都为 0xF0 ,十进制标识为240，与7按位与后值为0，所以，直接返回 true .

和FullRune类似，只是参数为字符串形式

原创文章，作者：ZEUY，如若转载，请注明出处：https://www.506064.com/n/139235.html