Linux

Linux 伺服器不允許超過 2048 個並發連接

  • June 24, 2021

我嘗試從我的 MACOS 對 MQTT 進行負載測試,並且能夠成功實現超過 12k 的連接,直到我的頻寬耗盡。

我嘗試在 GCP 機器上進行相同的測試,一旦打開的埠達到 2048 和 2048 與 MQTT 代理的連接,它就會給我連接超時異常。

連接時,我的 ConnectionTimeout 為 100s(等待 conack)和 KeepAlive = 300s(一旦建立連接)

無論負載測試軟體是什麼,例如 mzbench、jmeter 和 emqtt-bench,都會發生此問題。所以,我認為這個問題與linux伺服器有關。

我不希望實現 100 萬個開放連接,而是尋找至少 30K 開放連接。

已經嘗試更改 ulimit,這些是我的 ulimit 配置

core file size          (blocks, -c) 0
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 63887
max locked memory       (kbytes, -l) 64
max memory size         (kbytes, -m) unlimited
open files                      (-n) 102400
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) 8192
cpu time               (seconds, -t) unlimited
max user processes              (-u) 200000
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited

proc 上的 cat 也將最大文件打開為 102400

這些也是我的 sysctl 中設置的值

fs.file-max = 200000
net.core.rmem_max = 16777216
net.core.wmem_max = 16777216
net.ipv4.tcp_rmem = 4096 87380 16777216
net.ipv4.tcp_wmem = 4096 65536 16777216
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_mem = 50576   64768   98152
net.core.netdev_max_backlog = 2500

編輯:添加了機器詳細資訊和測試模式

機器類型:n2-highcpu-16(16 個 vCPU,16 GB 記憶體)

lscpu 的結果

Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
Byte Order:            Little Endian
CPU(s):                16
On-line CPU(s) list:   0-15
Thread(s) per core:    2
Core(s) per socket:    8
Socket(s):             1
NUMA node(s):          1
Vendor ID:             GenuineIntel
CPU family:            6
Model:                 85
Model name:            Intel(R) Xeon(R) CPU
Stepping:              7
CPU MHz:               2800.200
BogoMIPS:              5600.40
Hypervisor vendor:     KVM
Virtualization type:   full
L1d cache:             32K
L1i cache:             32K
L2 cache:              1024K
L3 cache:              33792K
NUMA node0 CPU(s):     0-15
Flags:                 fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc rep_good nopl xtopology nonstop_tsc cpuid tsc_known_freq pni pclmulqdq ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt aes xsave avx f16c rdrand hypervisor lahf_lm abm 3dnowprefetch invpcid_single ssbd ibrs ibpb stibp ibrs_enhanced fsgsbase tsc_adjust bmi1 hle avx2 smep bmi2 erms invpcid rtm mpx avx512f avx512dq rdseed adx smap clflushopt clwb avx512cd avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves arat avx512_vnni md_clear arch_capabilities

測試模式:每秒打開 200 個連接並以恆定速率等待 conack。

感謝上面的評論,我能夠解決這個問題。

我正在從我的測試 VM 中訪問公共 LoadBalancer IP。但是,GCP 限制了從 VM 到公共 IP 的最大 2048 個連接。將其更改為私有 IP 後,我能夠實現接近 65k 的連接。

引用自:https://serverfault.com/questions/1067515