安装Composer PHP Warning: copy(): SSL operation failed with code 1.

报错信息

[root@localhost ~]# php -r "copy('https://install.phpcomposer.com/installer', 'composer-setup.php');" PHP Warning:  copy(): SSL operation failed with code 1. OpenSSL Error messages: error:14090086:SSL routines:ssl3_get_server_certificate:certificate verify failed in Command line code on line 1 Warning: copy(): SSL operation failed with code 1. OpenSSL Error messages: error:14090086:SSL routines:ssl3_get_server_certificate:certificate verify failed in Command line code on line 1 PHP Warning:  copy(): Failed to enable crypto in Command line code on line 1 Warning: copy(): Failed to enable crypto in Command line code on line 1 PHP Warning:  copy(https://install.phpcomposer.com/installer): failed to open stream: operation failed in Command line code on line 1 Warning: copy(https://install.phpcomposer.com/installer): failed to open stream: operation failed in Command line code on line 1

解决方法

应该是CA证书验证失败造成的错误，下载个CA证书

[root@localhost ~]# wget http://curl.haxx.se/ca/cacert.pem [root@localhost ~]# mv cacert.pem /usr/local/openssl/ssl/certs/cacert.pem [root@localhost ~]# vim /yourpath/php.ini

修改cafile路径，保存

[openssl]
; The location of a Certificate Authority (CA) file on the local filesystem
; to use when verifying the identity of SSL/TLS peers. Most users should
; not specify a value for this directive as PHP will attempt to use the
; OS-managed cert stores in its absence. If specified, this value may still
; be overridden on a per-stream basis via the "cafile" SSL stream context ; option.
;openssl.cafile=
openssl.cafile=/usr/local/openssl/ssl/certs/cacert.pem

使用nginx配置多个php-fastcgi负载均衡

配置还是非常简单的，充分体现了nginx的强大与配置的简单。

应用的最前端是一台nginx服务器，所有静态的内容都由nginx来处理，而将所有php的请求都分摊到下游的若干台

运行PHP fastcgi守护进程的服务器中，这样可以以一种廉价的方案来实现对系统负载的分摊，扩展系统的负载能力。

三台php-fastcgi服务器的ip地址分别为：

172.16.236.110 , 172.16.236.111, 172.16.236.112

运行php-fastcgi进程时，需要让php-cgi监听到服务器的局域网地址（分别如上所示），而不是之前一般都是监听的

本地地址（127.0.0.1）。

以 172.16.236.110这台服务器为例：

/usr/local/php5/bin/php-cgi -b 172.16.236.110:9000

或许你用spawn-fcgi来启动php-fcgi，那么就是这样（供参考，其实也就是修改监听的地址和端口即可）：

/usr/local/lighttpd/bin/spawn-fcgi -f /usr/local/php5/bin/php-cgi -a 172.16.236.110 -p 9000

又或许你是用php-fpm来管理php-fcgi，那么你需要修改php-fpm的配置：

vim  /usr/local/php5/etc/php-fpm.conf

找到这个配置项（其中的地址可能需要根据你自己环境来调整）

<value< span=”” style=”word-wrap: break-word;”> name=”listen_address“>127.0.0.1:9000>

修改为：

<value< span=”” style=”word-wrap: break-word;”> name=”listen_address“>172.16.236.110:9000>

修改完毕后，重启你的php-fpm进程。

然后按照上面的步骤，依次修改其他php fastcgi服务器。

php方面的工作暂时就是这些，下面修改nginx。

vim  /usr/local/nginx/conf/nginx.conf

在配置文件的http段内增加类似如下的配置：

upstream myfastcgi { server 172.16.236.110 weight=1; server 172.16.236.111 weight=1; server 172.16.236.112 weight=1; }

我这里三台php fastcgi服务器的权重是相同的，所以其中的weight值都是1，如果你的php fastcgi服务器需要分主次，那么

可以通过调整其weight值来达到目的。比如以第一台服务器为主，其他两台为辅，则就是这样：

upstream myfastcgi { server 172.16.236.110 weight=1; server 172.16.236.111 weight=2; server 172.16.236.112 weight=2; }

然后找到原来nginx关于php fastcgi配置的部分，比如：

location ~ \.php$ { fastcgi_pass 127.0.0.1:9000; fastcgi_index index.php; fastcgi_param  SCRIPT_FILENAME $document_root$fastcgi_script_name; include fastcgi_params; }

将其中的fastcgi_pass那一段改为：

fastcgi_pass myfastcgi;

其中的myfastcgi也就是上面刚刚配置的php fastcgi均衡器的名字了。

完了以后，重启nginx即可。

简单吧，就通过这么几个简单的配置，就可以实现一个经济高效的nginx、多php-fcgi的负载均衡解决方案了。

当然了，这样的方案运用到实际项目中还需要进行一些细化的配置，主要是php方面还需要进一步配置

Google的DevOps理念及实践（上）

SRE（Site Reliability Engineering）是最早由Google提出，又经由Google发展完善的一个崭新运维理念。如今SRE已成为一个涵盖运维理念、思路、组织架构和具体实践的完整体系。数人云推出SRE系列教程，由SRE经验丰富的技术大牛们为大家分享运维一线的独家干货，揭示SRE背后的秘密。

今天为系列教程第一期，我们邀请了前Google SRE、《SRE Google运维解密》的译者孙宇聪与大家进行了线上分享。本文为上篇，讲述了SRE的基本概念和核心原理。与孙老师本人一样风趣幽默的文章，小数希望大家阅读愉快：）

今天与大家分享的内容是关于最近我翻译的这本书，据说反响还不错，今天借这个机会聊一聊书中的内容，并与大家分享一下我回国两年多以来，Google经验在国内的一些思考和落地实践。

什么是SRE？

很多时候国内把DevOps的范围定得有点狭窄， DevOps这件事情在国外更多是整个行业内的一个趋势。DevOps是一种模式，主要是让IT相关的东西与商业结合得更紧密一些，迭代速度变得更快一些，所以它适用于各个行业。今天说的SRE，我认为也是在运维行业上的一部分。

概括来说，我认为《SRE Google运维解密》这本书是一个文集。GoogleSRE全球一千多人，这个组织在公司里相对比较小众，但又是一个比较重要的部门，整个Google所有业务线的运维环境都由SRE来负责。SRE是一个非常分散的组织，每个业务线、每个部门其实都有自己的SRE小团队。这本书里共有一百多个作者联合写成，其中也包括我以前所在的团队，我们做过的一些Project也在书中也有提到，所以它是一本文集。我与原著的三个编辑聊天时，他们说成书最大的难处就是删减内容，当时征集来的内容大概有一千多页，最后删到了五百多页。这也是这本书比较有意思的一个花絮。

回到这本书的宗旨， SRE到底是什么？SRE是Google发明的一个词语或者新定义的一个职业。以前这个运维角色，大家叫运维，美国叫Operation。现在Google把这个职位扩展为SRE，就是用软件工程师的方法和手段，招了一些软件工程师来解决运维的难题，这是SRE的官方定义。

传统运维模式的弱点

现在传统的计算机行业的运维方式，大部分都是采用系统管理员的模式。大家最熟悉的运维方式是这样：招聘一些系统管理员，他们有负责采购机器的，有负责维护数据中心的，也有专门维护数据库的等等。系统管理员模式有几个特点，他们只是把一些现成的组件组装起来，并不会自己开发和创造新的系统，比如拿了MySQL把它跑起来，或是研发部门开发出来的新代码组装成之后提供这样一个服务。这是运维部门的一个特色，负责把这个东西运行好。

举一个例子，在美国的时候我们经常自嘲，说自己是流水线上的工人。因为这个流水线实际上是别人设计出来的，总得有人去操作这个机器，而我们就是一线的操作流水线的工人。又比如，我们好像是发电站里的工作人员，又或者是飞机驾驶员。飞机驾驶员就是开别人造出来的飞机，这和运维部门的职责很像。

那么这样一个运维部门的职责包括哪些呢？首先最重要的是应急事件的处理，这是重中之重，也是最唯一的职责。其次是常规更新，现在的业务发展越来越快，每周都有新的东西上线，比如说今天要买新机器，明天要改IP地址，大家可能80%的投入都是在这些事上，这就是系统管理员或者是现在运维行业的工作模式。

但是系统管理员模式有一个最大的弊端，按照传统的组织架构模式或者是这种运维模式运行会导致这个团队持续扩张，业务越来越多，需要不停的招人去应付各种各样的事。刚开始接手生产的时候，也许一周就出一次事或者是需要更新一次。因为人的沟通能力总是有限的，招了五个人之后，这五个人之间的传达问题就形成了一个困难。当你把一个精神传达给这五个人，他们事后执行出来的结果都不一样，这就是传统模型一直想要解决的问题。但是这种模型也有好处，就是市场招聘比较容易。

Google有几个比较重要的特点，首先它的部署规模非常大。Google到今天已经十八年了，刚开始前几年公司所有的人平时写代码，周末去机房接机器。因为它扩展速度特别快，部署规模非常大。如果按照传统的系统管理员的那种模式操作，这个机柜归你，这个机柜归他，再下一个归另外一个人，那么Google招人的速度一定赶不上机器增加的速度，所以Google是被逼迫创造了这样的职位，因为没有办法安排团队做如此大规模的运维。

传统的运维模式还有一个更大的问题，它过于强调专业化。比如一个人是做网络的，他只做网络其他都不管，全公司可能只有他懂网络，因为他不停的在网络上投入时间，集中力气把这个事情做好。这样一个结果就是会发现运维部门没人能休假，一出事只有一个人能解决问题。不仅仅是网络，特殊硬件、一些第三方服务都存在这个问题。这就导致了知识没法共享，人灵活性受到限制，整个组织的灵活性也受限制。这个问题，我认为它最终形成了一个负反馈的循环，每个人之间越是互相隔离，越是没有办法提高，导致服务质量上不去。最大的问题是，招来更多的人其实也不解决问题，因为这个部署规模不断扩大，人之间的知识不能共享，所以招来的人只能运维新的设备，旧的设备还是这些人在做。

这是一个怪圈。回国之后我与很多公司的朋友都聊过这个问题。以前大家讲Oracle这样的公司存在老DBA，说老DBA都是难得一见的，深居简出，但是你有什么问题，只有他能解决，其实这在Google这个语境里这是一个比较不健康的状态。SRE的一大特点就是想请假的时候随时请假，每一个人都可以请假；当出现紧急情况的时候，当天值班的人真的可以处理他负责的这个服务所有的问题。

Google SRE的起源与特点

回到最开始，Google SRE的VP叫Ben Treynor，他是一个资深的软件开发经理。2003年他加入公司第一个任务，是组建一个7人的“生产运维小组”。很快他发现如果想把这件事情做好，也就是把搜索服务运维好的话，按照Google机器增加的速度，传统的模式绝对是不可能的。机器增加的速度，系统复杂度增加的速度远比人增加的速度要多得多。所以他组建的团队有以下三个特点，注意，这里我认为其实更多的是事后的总结。首先，他的执行方式是像组建一个研发团队一样来组建这个运维团队。他招了很多他熟悉的研发工程师，这些研发工程师从开发能力上没有任何问题，用现在流行的话就是全栈工程师，什么都会做。第二点，这些人对系统管理比较有热情，懂一些Linux内核知识、网络层的知识。第三点，最关键的是这些人鄙视重复性劳动，码农最痛恨的是什么事，就是反复做同一件事。他把这些人聚到一块，然后让他们执行以前传统公司运维人员来做的事情，很自然这些人不愿意手动干，于是就写程序干。多快好省，同时写程序还有一个好处，就是可以把一些最佳实践、方式、流程、方法都固化成代码，用这种方式去应对规模性的扩张，去应对复杂度的上升。

这些是SRE跟传统的运维模式最不同的一点，就是招的人研发为主，做的事也是以研发为主。这是当时SRE成立背后的故事，这些年来我认为他们做得最好的一点是一直在维持了一种平衡。将运维部门从传统执行部门往上提升，打破了传统的界限。就像刚才说的DevOps，很多人理解为就是让研发部门做运维的事，或者运维部门做研发的事情，但实际上DevOps在国外的定义更宽泛一点。DevOps的思想更多的是说把整个开发流程的界限打通，产品有的时候也要干一些研发的事，研发有时候把这个信息要很快的反馈给这个产品，开发和运维或者QA和运维之间的界限也打通。所以现在去搜DevOps的图片，会发现IBM这些人都在讲圈圈，说以前是产品研发都是一条线直着来，而现在都是转圈的，这就是DevOps理论。

按照这个理论来说，SRE就是DevOps的思想在开发和运维之间的一个平衡。

SRE的工作职责

这个图是我发明的，书中没有提到。书里大概有二十多章的内容是在讲SRE的各种日常工作，简单提了一下它的金字塔模型，于是我归纳总结了一下。这里是由下至上，下面的事份额比较大一点，上面的事份额比较小一点，分了三类。第一类，运维部门最重要的是应急响应这个问题，因为业务越来越大，与运营的结合越来越紧密，很多时候要处理的事情更多的是商业和运营上的事，也包括软件上的问题，这个部门最特殊或者最唯一的职责就是应急响应。之上是日常运维，保证机器能够正常更新、快速迭代。再往上是输出一些工程研发，无论是做工具，还是做高可用架构、提高可靠性，这些都是最上层的东西，只有把底下全部做好了才能说到上面。

应急响应

应急响应是运维部门在公司最独特的一点，表现为当公司出现问题时，应该找谁或者流程应该是怎样的。我回国之后见了不少初创企业，他们网站出问题了，往往是CEO先发现，CEO打电话“哎，这个到底是怎么回事啊”，然后每一个人都说“不知道啊，不是我负责呀，我得找谁谁”。不管多大一件事都得传遍整个公司，整个效率非常混乱。

我在Google待了八年时间，这样的流程也经历过，但是最近这几年Google非常重视这一点，建立了一整套应急事件处理方式。首先要有全面监控，监控这件事情是持久不断的，重中之重。SRE所有人都要非常了解整个监控系统在所有业务中的部署实施，其实这是我们平时花精力最多的地方。监控系统里面对整个系统所有方面都有监控，不光包括业务指标，也包括性能指标、效率指标。监控应该平台化、系统化，不停的往上积累，多做一些模板，同质化的系统就可以用同样的方法去做监控。

第二点是应急事务处理，应急事务处理分两部分，第一部分是演习，另外一部分是真正的处理流程。如何把它做好？实际上就是要不停的去演习、去做这个事情。像刚才举的例子，网站挂了，首先不应该CEO先发现，而应该是监控系统或者报警系统先告警，在发现之前就很应该明确这个东西应该谁排查，谁处理，这个信息应该早就发给合适的人去处理，甚至他应该早就在做了。如果发生特别大的，需要跨部门之间协作的问题，那不应该只是领导现场调配，而是整个组织每个人都明白这个流程应该是怎么样的，直接就做。Google甚至可以做到在一次事故中间两地交班，某个团队处理一半，然后我交接给另外一边团队，就下班回家了，持续不停的有人继续跟踪处理这件事情，而不会出现问题。这样一个模式是我觉得非常值得我们思考的。

处理完问题之后，要总结。之前听过的一个故事是，某公司业务出现了一个事故，大家加班加点，十几个小时没睡觉把这事搞定，然后领导过来就说了一句“大家辛苦了，回家睡觉吧”。但是，其实在这个时候我要说，领导光说这个其实恰恰是不够的。领导在这里应该问：为什么加班啊？这个事情为什么会发生啊，下次能不能不发生，大家能不能不加班，能不能不熬夜？这样才对, 能做到事后总结这个事情很难，但只有把这个做好了，才能降低以后问题发生的几率。

日常运维

日常运维做得最多的可能是变更管理。业务现在发展非常快，迭代速度、迭代周期非常快。其实这件事情能做好，能够做到无缝、安全、不停的变更管理，是运维部门能给公司做的最大贡献。

第二个，容量规划，当规模大到一定程度的时候，就需要有人来回答这个问题——到底要买多少新机器，能否保证明年的性能、效率，那谁来负责这件事呢？SRE部门提出这些方案，然后要确保这些指标、这些东西是有数据支撑的，确实能解决问题的。

工程研发

工程研发虽然做得少，但是工作很关键。SRE在工程研发上主要的工作，首先是帮产品部门确定一个SLO。SLO是一个服务指标，每一个产品都有一个服务指标。任何系统都不可能是百分之百可靠的，也没有必要做到百分之百可靠。这里得有一个目标，比如说可以每个月中断几分钟。这件事情是要产品部门考虑清楚的。比如我之前在YouTube做视频存储、视频点播的时候，要考虑每个视频到底是存一份还是存两份的问题，将这种问题放到一个非常大的部署规模里面的时候，只有产品部门能够拍板。说到底是要不要花这个预算，要不要花这么多钱去提高0.1%的可靠性或者0.01%的可靠性。

另外一点是无人化运维。大家都看过《黑客帝国》吧？一醒来发现大家都是电池，都是为机器服务的。其实把这个比喻放在运维部门非常合适。因为如果不停的开发出需要人来操作运维的系统，结果大家最后都是电池，明显是不可持续的。如果不停的产生这种需要人来操作的东西，不停的招人，最后就变成不停的运维这个东西。把整个流程自动化，建立一个能够应对复杂业务的平台，这就是工程研发上最需要的东西。

SRE模型成功的关键要素

SRE在Google有十几年的历史了。这个模型是如何成功的？我总结如下几点：

职业化

运维行业从来都说不清楚自己是干嘛的，这是不对的。很多人认为会操作Linux，或者是DBA、会配网络，就算运维了。实际上运维的范围要比这个大得多。运维应该是负责公司业务正常运转的角色，这才是真正的运维。在出问题的时候能解决问题，保障业务连续性，甚至避免问题发生，这才是运维职业的定义。

具体如何做呢？推演和演习。

推演是给你一套系统，你要分析出来它会有什么样的失败模式。我们当时经常在黑板上画系统图，大家一起讨论如果这个组件出问题了会发生什么情况，用户到底还能不能看视频了，用户购买流程还能不能走通。实际上这些过程很多时候软件开发是不考虑的，但是如何拆分、如何去保证每个环节的可靠，这才反是运维这个行业最关键的一点，所以一定要做这种推演。只有这种推演才能输出改变，让系统更可靠。

第二点是演习。我们当时每周都会进行一次小型灾难演习，例如把以前出现的问题拿出来一个，让新加入团队的人去演习，所有其他的人也都要去参加。这里主要是观察新人到底是怎么思考这个系统的，新人做出的决定到底是不是正确的。因为一个人做出的决定是不是正确的实际上取决于系统给的反馈到底是不是对的。Google认为运维复杂系统不是一个靠智商和记忆力就能解决的问题，不能依赖人一定要知道这段话或这个知识点，而是要知道一种方法，知道如何去排除问题或排查问题。运维系统应该提供足够的信息，让轮值的人能够用正确的方法去处理问题。这很像是背英语辞典和会用英语聊天的区别，你再怎么背辞典关键时刻也是要查辞典的，但是真正能运用这些信息解决问题，是比较难的。

此外，要区分责任和指责。责任和指责是两个事情，但是很多公司的运维经常分不清楚。什么叫责任，就是这个事到底谁负责。但是指责是另外一回事。例如一个员工敲错了一个命令，大家说 “都是因为他的错，给他扣工资、扣奖金，让他三天不吃饭”，但这其实并不真正解决问题。再例如，比如说一个系统设计电源插座，没有仔细考虑，很容易被人踢到，结果有人真踢到了，整个机房断电了出了很大的事故。那么从Google的理念来说这里不是人的问题，而是系统设计的问题。这里是不是应该有两套电源，是不是应该有保护？只有从系统设计问题的角度出发才能真正解决问题，而指责这个踢到插座的人，让他一个月不上班，甚至当时开除也并不能解决系统的设计问题，下回总会还有人踢到。

说一个故事，故事的内容是一个事故。某个数据中心有一排机器要断电，数据中心的人发了一个工单告诉操作员要把这个开关给关了。然后这个操作员去关，他关掉了开关，但是发现这一排机器的灯没灭，另外一排的灯却灭了——按错开关了。他检查一下发现按错了，“啪”把另外一个开关也关了，然后再把这一排机器给启动，结果由于启动时候过载导致整个数据中心都断电了，扩大了问题。如果单纯只是指责，这个人肯定完了，起码奖金没有了，能不能保证工作都不知道。但是Google 更关注的是这个东西为什么会容易出错，要么是开关颜色不对，要么是相同机器的操作方式靠得太近了，会让人产生这种错误的判断。所以你看Google的机房里都是五颜六色的，因为这样确实有用，比如热水管是红色的，制冷管是蓝色的，所以查起来很容易，区分起来很容易，尽量减少了这个问题。这个设计的思想在SRE日常工作里贯彻得非常深，每人在流程或工作的时候都要考虑到有没有被误用的可能，然后如何避免误用。

专业化

专业化体现在什么程度呢？要真正的去写代码，要能给业务系统或者给研发写的东西挑出问题，提高可靠性。

第一，减少琐事。运维中有很多虚假的工作。每天很忙，然而又不解决问题，做了很多假的工作。大家看起来好像很忙，一个屏幕上十几个窗口，各种刷屏，但完全不解决问题。更好的方式是用自动化、系统化、工具化的方式去消除这种琐事的存在。如果永远靠人工，那永远都闲不下来。

第二，回到SRE，SRE制度里有一条红线，运维的人只能把一半的时间花在运维上，另外一半的时间必须搞工程上、研发上的东西。研发可以是写工具，可以是参与系统设计，参与可靠性的提高，但是要保证运维不能只干运维。

第三点，我认为也是比较缺少的，运维部门光有责任没有决策权，所以大家都说一出事故，运维就背黑锅。怎么不背黑锅呢？说改这儿、改那儿，然后发现没有人批准改动，这是最大的问题。SRE做的最好的一点是管理层对SRE的工作方式非常认可、非常支持，他们认为服务质量是服务的一个重要指标。一旦上升到这个高度，SRE部门提出一些要求就比较容易理解，得到支持，因为他们是有事实根据的。当GoogleSRE发现生产出现问题的时候，标准的解决办法就是暂停所有更新，确保业务稳定。举个比较极端的例子，像刚才说的如果发现线上系统有问题的情况下，SRE是有权利拒绝接受业务更新的，只允许研发部门修bug，不允许加新功能。这个争议我在过去八年见过为数不多的几次，开发可以一直闹到 VP，SVP 这个级别。每一次都是听SRE的。

打通与产品团队的反馈回路

所有东西不都是百分之百稳定的，稳定性的提高要消耗成本，要增加更多的冗余，更多的容量，甚至只能花钱解决。运维部门的任务就是提供这些数据和方案。比如搞三个9、四个9，要如何达到，这在投入和系统设计上有很大区别。这个部分公司里没有其他人可以提出，必须要由运维部门提出。如果没有这个反馈回路的话，你会发现大家都很痛苦，很多时候做出的决定都是违背自然规律的。我看过很多这样的案例，上面拍脑门决定某个业务要100%稳定，完全不管下面怎么搞，由于反馈回路不存在或者这个反馈回路的信息流动不够顺畅，导致了这个东西最终实际做不好，这是SRE模型相当关键的一个地方。

UDP Jitter测试

UDP Jitter测试是以UDP报文为承载，通过记录在报文中的时间戳信息来统计时延、抖动、单向丢包的一种测试方法。Jitter（抖动时间）是指相邻两个报文的接收时间间隔减去这两个报文的发送时间间隔的差值。

图1 UDP Jitter测试原理图

如图1所示，UDP Jitter测试的过程如下：

源端（ME60A）向目的端（ME60B）发送数据包。发送时，在报文中记录时间戳t1。
目的端（ME60B）收到报文后，在报文中记录时间戳t1’。
目的端（ME60B）将收到的报文发回到源端，在报文中记录时间戳t2’。
源端（ME60A）收到报文，在报文中记录时间戳t2。

从源端接收到的信息中计算出：

数据包从源端到目的端和从目的端到源端的最大抖动时间、最小抖动时间及平均抖动时间。
从目的端到源端或从源端到目的端的最大单向延时。

从而清晰的反映出网络状况。

双向时延：RTT=（t2-t1）-（t2′- t1’）

当双向时延>用户配置的超时时间时，表示网络不畅通。此时，报文将被统计为丢包。

丢包率=丢包个数/发送报文总数

UDP Jitter测试可以测试2个方向的抖动(Jitter)值：

SD（源到目的）方向：Jitter=(t3’-t1’)-(t3-t1)

计算出来的结果，如果大于0，则统计为正向抖动值；如果小于0，则统计为负向抖动值。
DS（目的到源）方向：Jitter=(t4-t2)-(t4’-t2’)

计算出来的结果，如果大于0，则统计为正向抖动值；如果小于0，则统计为负向抖动值。

UDP Jitter测试例还支持统计单向丢包。

图2 UDP Jitter测试统计单向丢包原理图

如图2所示，在Server（ME60B）端会统计收到报文的个数，当Client（ME60A）端口收到的报文个数与从报文中获取的Server（ME60B）端收到报文的个数不同时，会自动发起单向丢包查询，获取Server（ME60B）端接收报文的个数：

Packet Loss SD是源到目的的丢包

Packet Loss SD=Client（ME60A）端发送的报文个数-Server（ME60B）接收报文个数

Packet Loss DS是目的到源的丢包

Packet Loss DS=Server（ME60B）接收报文的个数-Client（ME60A）接收报文的个数

Client（ME60A）端收不到查询报文时，会将丢包记录到Packet Loss Unknown。

php连接mysql是否应该使用存储过程以及优劣势和使用场景

利弊是相对的，使用存储过程来实现不一定是什么“滔天大罪”，这完全取决于系统的规模，扩展性以及产品的发展方向。
通常情况来说，把业务逻辑写到存储过程中不利于系统分层设计和维护，更不利于数据库的迁移（当然没有谁总想着换个数据库玩儿玩儿），这么做的原因很可能是他认为可以提高性能（存储过程的性能确实优于SQL访问的性能），不过为了解决性能问题有很多种方案，这种方式可能会差一些。

先说一下优劣势，再说一下使用场景吧

1、存储过程的优势

（1）、减少连接数

（2）、调用相对程序方比较简单，由DB管理员加，程序方只是需要传递参数即可

（3）、方便DBA查看

2.使用存储过程的劣势

（1）、程序极大耦合，业务一旦更改，需要都进行更改

（2）、牵扯到复杂计算的情况下，需要数据库进行运算，而数据库的优势是存取，循环等逻辑判断服务的情况是数据库的一个硬伤

（3）、调试困难，无法知道运行sql的情况，尤其是数据库有专门DBA的情况

（4）、主从分离的情况无法使用

（5）、无法适应数据库的切割（水平或垂直切割）。数据库切割之后，存储过程并不清楚数据存储在哪个数据库中。

3、使用场景

存储过程只是适用在php和mysql都是同一个人管理的不太进行业务变更的小网站上。稍微复杂一点的网站并不适合存储过程

公司开发定的数据库MYSQL规范

我们公司相当多的项目用的是mysql数据库，但是大家在开发过程中对mysql的认识问题，往往在数据库设计时对字段的定义不一致，在开发时对sql语句的执行出现问题，特地把一些通用性的、值得注意的问题做一下总结

一、数据库的设计规范

1、必须使用InnoDB存储引擎

原因：支持事务安全、行级锁、并发性能更好（查询不加锁，完全不影响查询），内存缓存页优化使得资源利用率更高，mysql5.6版本开始支持全文索引

2、必须使用utf-8的字符编码

原因：这个无需过多解释，和网站以及其他系统完全统一，避免转码带来不必要的麻烦，而且系统数据接口都是使用json格式。

3、数据库、表、字段名必须有意义并且必须加入中文注释

原因：避免自己遗忘，方便他人进行开发，要不然一段时间之后谁还知道这是用来干什么的

4、禁止使用存储过程、视图、触发器

原因：高并发大数据的互联网业务，架构设计思路是“解放数据库CPU，将计算转移到服务层”，并发量大的情况下，这些功能很可能将数据库拖死，业务逻辑放到服务层具备更好的扩展性，能够轻易实现“增机器就加性能”。数据库擅长存储与索引，计算还是使用程序来实现。使用存储过程等非常难于进行调试和测试。

5、禁止存储文件和图片

原因：存储路径在速度和空间方面会有更好的提升

6、数据库中表的数量不能高于500

原因：做好前期设计，尽量把一些相关度低的表进行分库处理

7、库名、表名、字段名的命名规则

所有的名字都使用小写并且间隔使用下划线风格，不超过32个字符，必须要见名知意，尽量使用英文，但是绝对禁止拼音英文混用命名。

二、表的设计规则

8、表中的字段数不能超过30

原因：如果字段过多，就要把一些不常用的字段进行分表处理

9、表明和索引名统一

例如：表名table_xxx，非唯一索引名index_xxx，唯一索引名unique_xxx

10、所有表必须至少有一个主键，例如自增主键

原因：

a）主键递增，数据行写入可以提高插入性能，可以避免page分裂，减少表碎片提升空间和内存的使用

b）主键要选择较短的数据类型， Innodb引擎普通索引都会保存主键的值，较短的数据类型可以有效的减少索引的磁盘空间，提高索引的缓存效率

c）无主键的表删除，在row模式的主从架构，会导致备库夯住

11、禁止使用外键，如果要有外键完整性约束，必须使用程序进行控制

原因：外键会导致表之间耦合度增加，update与delete操作都会涉及相关联的表，非常影响sql 的性能，甚至会造成死锁。高并发情况下非常影响数据库性能，大数据高并发业务场景数据库使用以性能优先

三、字段的设计规范

12、所有字段都要定义为NOT NULL并提供默认值

原因：

1）null的列使索引/索引统计/值比较都更加复杂，对MySQL来说更难优化

2）null 这种类型MySQL内部需要进行特殊处理，增加数据库处理记录的复杂性；同等条件下，表中有较多空字段的时候，数据库的处理性能会降低很多

3）null值需要更多的存储空，无论是表还是索引中每行中的null的列都需要额外的空间来标识

4）对null 的处理时候，只能采用is null或is not null，而不能采用=、in、<、<>、!=、not in这些操作符号。如：where name!=’shenjian’，如果存在name为null值的记录，查询结果就不会包含name为null值的记录

13、在多字段的表中禁止使用TEXT、BLOB类型

原因：会浪费更多的磁盘和内存空间，非必要的大量的大字段查询会淘汰掉热数据，导致内存命中率急剧降低，影响数据库性能

14、使用整数禁止使用小数存储货币

原因：价格乘以100来使用整数存储，小数在运算过程中会导致钱对不上

15、手机号必须使用varchar(20)进行存储

原因：

1）涉及到国家代号，可能出现类似+86

2）手机号会去做数学运算么？不会，所以不要使用int（11）

3）varchar可以支持模糊查询，例如：like“138%”

16、禁止使用ENUM，可使用TINYINT代替

原因：

1）增加新的ENUM值要做DDL操作

2）ENUM的内部实际存储就是整数，你以为自己定义的是字符串？

四、索引的设计规范

17、表中索引的数量最好控制在5个以内

原因：

1）、索引也占用很大的空间

2）、索引在创建修改数据的情况需要大量更新索引

18、一个索引关联的字段在5个以内

原因：字段超过5个时，实际已经起不到有效过滤数据的作用了

19、禁止在更新十分频繁、或者区分度不高的属性上建立索引

原因：

1）更新会变更B+树，更新频繁的字段建立索引会大大降低数据库性能

2）“性别”这种区分度不大的属性，建立索引是没有什么意义的，不能有效过滤数据，性能与全表扫描类似

20、建立组合索引，必须把区分度高的字段放在前面

解读：能够更加有效的过滤数据

五、sql优化

21、禁止使用SELECT *，只获取必要的字段，需要显示说明列属性

原因：

1）读取不需要的列会增加CPU、IO、NET消耗

2）不能有效的利用覆盖索引

3）使用SELECT *容易在增加或者删除字段后出现程序BUG

22、禁止使用INSERT INTO t_xxx VALUES(yyy)，必须显示指定插入的列属性

原因：容易在增加或者删除字段后出现程序BUG

23、禁止使用属性隐式转换

原因：SELECT uid FROM t_user WHERE phone=13812345678 会导致全表扫描，而不能命中phone索引，

where 条件语句里，字段属性和赋给的条件，当数据类型不一样，这时候是没法直接比较的，需要进行一致转换，这种情况是无法使用索引的。

24、禁止在WHERE条件的属性上使用函数或者表达式

原因：SELECT uid FROM t_user WHERE from_unixtime(day)>=’2017-02-15′ 会导致全表扫描，而不能使用索引

正确的写法是：SELECT uid FROM t_user WHERE day>= unix_timestamp(‘2017-02-15 00:00:00’)

25、禁止负向查询，以及%开头的模糊查询

解读：

a）负向查询条件：NOT、!=、<>、!<、!>、NOT IN、NOT LIKE等，会导致全表扫描，而不使用索引

b）%开头的模糊查询，同样会导致全表扫描，不能使用索引

26、禁止在大表中使用JOIN查询，禁止大表使用子查询

解读：会产生临时表，消耗较多内存与CPU，极大影响数据库性能

27、禁止使用OR条件，都改为IN查询

原因：旧版本Mysql的OR查询是不能命中索引的，即使新版能命中索引，为何要让数据库耗费更多的CPU呢？

28、应用程序必须捕获SQL异常的功能，并有相应处理

http://www.architecy.com/archives/456

systemctl管理双redis启动、停止、开机自动启动

systemctl管理双redis启动、停止、开机自动启动
1. 创建服务
用service来管理服务的时候，是在/etc/init.d/目录中创建一个脚本文件，来管理服务的启动和停止，在systemctl中，也类似，文件目录有所不同，在/lib/systemd/system目录下创建一个脚本文件redis_6379.service，里面的内容如下：

[Unit]
Description=Redis
After=network.target

[Service]
ExecStart=/usr/local/bin/redis-server /usr/local/redis/redis_6379.conf –daemonize no
ExecStop=/usr/local/bin/redis-cli -h 127.0.0.1 -p 6379 shutdown

[Install]
WantedBy=multi-user.target
[Unit] 表示这是基础信息
Description 是描述
After 是在那个服务后面启动，一般是网络服务启动后启动
[Service] 表示这里是服务信息
ExecStart 是启动服务的命令
ExecStop 是停止服务的指令
[Install] 表示这是是安装相关信息
WantedBy 是以哪种方式启动：multi-user.target表明当系统以多用户方式（默认的运行级别）启动时，这个服务需要被自动运行。
更详细的service文件说明请访问：这里

2. 创建软链接
创建软链接是为了下一步系统初始化时自动启动服务

ln -s /lib/systemd/system/redis_6379.service /etc/systemd/system/multi-user.target.wants/redis_6379.service
1
创建软链接就好比Windows下的快捷方式
ln -s 是创建软链接
ln -s 原文件目标文件（快捷方式的决定地址）

如果创建软连接的时候出现异常，不要担心，看看/etc/systemd/system/multi-user.target.wants/ 目录是否正常创建软链接为准，有时候报错只是提示一下，其实成功了。

$ ll /etc/systemd/system/multi-user.target.wants/
total 8
drwxr-xr-x 2 root root 4096 Mar 30 15:46 ./
drwxr-xr-x 13 root root 4096 Mar 13 14:18 ../
lrwxrwxrwx 1 root root 31 Nov 23 14:43 redis_6379.service -> /lib/systemd/system/redis_6379.service
…略…

3. 刷新配置
刚刚配置的服务需要让systemctl能识别，就必须刷新配置

$ systemctl daemon-reload
如果没有权限可以使用sudo
$ sudo systemctl daemon-reload
4. 启动、重启、停止
启动redis

$ systemctl start redis_6379
重启redis

$ systemctl restart redis_6379
停止redis

$ systemctl stop redis_6379
1
5. 开机自启动
redis服务加入开机启动

$ systemctl enable redis_6379
1
禁止开机启动

$ systemctl disable redis_6379
1
6. 查看状态
查看状态

$ systemctl status redis

● redis_6379.service – Redis
Loaded: loaded (/usr/lib/systemd/system/redis_6379.service; enabled; vendor preset: disabled)
Active: active (running) since Mon 2018-11-12 14:32:32 CST; 2min 30s ago
Process: 305 ExecStop=/usr/local/redis/bin/redis-cli -h 127.0.0.1 -p 6379 shutdown (code=exited, status=0/SUCCESS)
Main PID: 335 (redis-server)
CGroup: /system.slice/redis_6379.service
└─335 /usr/local/redis/bin/redis-server 127.0.0.1:6379

Nov 12 14:32:32 10-13-35-210 systemd[1]: Started Redis.
Nov 12 14:32:32 10-13-35-210 systemd[1]: Starting Redis…

其他端口，复制一份

redis_6379

阿根廷DNS服务器地址

阿根廷 DNS服务器列表
DNS 主机名详情
216.244.192.32 nscache1.sinectis.com.ar.
216.244.192.3 ns2.sinectis.com.ar.
201.251.124.157 201-251-124-157.static.speedy.com.ar.
190.210.59.45 mx-maipu-new.maruba.com.ar.
190.210.59.40 customer-static-210-59-40.iplannetworks.net.
64.76.6.126 64-76-6-126.dynamic.impsat.net.ar.
200.45.85.226 dns1.savantpharm.com.ar.
201.251.98.226 –
190.210.108.225 customer-static-210-108-225.iplannetworks.net.
186.136.21.210 210-21-136-186.fibertel.com.ar.
190.210.59.36 customer-static-210-59-36.iplannetworks.net.
200.16.163.83 dns2.irsacorp.com.ar.
201.234.24.25 201-234-24-25.static.impsat.net.ar.
179.41.14.223 179-41-14-223.speedy.com.ar.
186.153.224.111 host111.186-153-224.telecom.net.ar.
190.103.16.97 97.1-200.
190.7.58.142 –
201.234.24.49 201-234-24-49.static.impsat.net.ar.
200.59.229.170 inalambrico170-229-nqn.neunet.com.ar.
200.117.248.147 host117248147.arnet.net.ar.
209.13.156.34 www.centrojosit.com.ar.
201.251.101.135 201-251-101-135.static.indicom.com.ar.
181.14.245.186 host186.181-14-245.telecom.net.ar.
201.216.200.66 mail.fondosargentina.org.ar.
190.2.24.245 mail.amia-empleos.org.ar.
190.216.56.107 –
190.7.58.147 –
190.104.196.254 static.254.196.104.190.cps.com.ar.
190.105.165.1 proxy.pccp.net.ar.
200.123.249.170 host170.200-123-249.dialup.intercity.net.ar.
181.15.221.41 host41.181-15-221.telecom.net.ar.
186.0.193.220 –
200.68.88.93 customer-static-68-88-93.iplannetworks.net.
200.43.56.249 –
181.14.249.44 host44.181-14-249.telecom.net.ar.
200.43.233.3 –
181.15.221.106 host106.181-15-221.telecom.net.ar.
190.196.239.95 –
190.221.14.210 host210.190-221-14.telmex.net.ar.
170.210.83.60 –
181.189.223.142 host181-189-223-142.wilnet.com.ar.
190.196.239.94 –
186.0.181.253 186-0-181-253.iperactive.com.ar.
200.41.192.172 172.host.advance.com.ar.
190.108.192.216 host-190.108.192.216.after-wire.com.
200.69.10.181 mail.dodetodo.com.ar.
186.148.147.176 176.cxlvii.static.eternet.cc.
200.5.203.242 –
190.107.240.1 –
200.61.21.225 edna225.silicanetworks.net.ar.
181.15.245.179 host179.181-15-245.telecom.net.ar.
186.190.169.234 host234.186-190-169.nodosud.com.ar.
190.16.39.63 63-39-16-190.fibertel.com.ar.
190.196.238.209 –
190.3.67.54 mx1.cordialfinanciera.com.ar.
200.61.21.113 edna113.silicanetworks.net.ar.
190.225.164.11 –
190.224.207.129 host129.190-224-207.telecom.net.ar.
190.221.163.157 host157.190-221-163.telmex.net.ar.
170.210.83.34 –

centos7 系统 df 无反应问题处理说明

问题描述

近期陆续碰到几台主机 df 卡住的问题, 监控程序由于超时引起相关的警报, 系统环境和 strace df 如下所示:

kernel-3.10.0-514.21.2
systemd-219-57

strace 显示卡在了 /proc/sys/fs/binfmt_misc 状态中:

# strace df
execve("/usr/bin/df", ["df"], [/* 29 vars */]) = 0
brk(0)                                  = 0x1731000
mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7fa7720a7000
access("/etc/ld.so.preload", R_OK)      = 0
open("/etc/ld.so.preload", O_RDONLY|O_CLOEXEC) = 3
fstat(3, {st_mode=S_IFREG|0644, st_size=24, ...}) = 0
......
stat("/sys/fs/cgroup/memory", {st_mode=S_IFDIR|0755, st_size=0, ...}) = 0
stat("/sys/kernel/config", {st_mode=S_IFDIR|0755, st_size=0, ...}) = 0
stat("/", {st_mode=S_IFDIR|0555, st_size=4096, ...}) = 0
stat("/proc/sys/fs/binfmt_misc",

在 systemd 服务中, 挂载 /proc/sys/fs/binfmt_misc 的只有两个 unit, 分别为 proc-sys-fs-binfmt_misc.automount 和 proc-sys-fs-binfmt_misc.mount, 查看几台问题机器系统服务状态, 仅有 automount 服务启动:

 proc-sys-fs-binfmt_misc.automount             loaded    active   running   Arbitrary Executable File Formats File System Automount Point
  proc-sys-fs-binfmt_misc.mount                 loaded    inactive dead      Arbitrary Executable File Formats File System
  systemd-binfmt.service                        loaded    inactive dead      Set Up Additional Binary Formats

问题机器分别进行过触发 mount 的操作, 但是没有进行过 systemctl stop proc-sys-fs-binfmt_misc.mount 操作:

May 30 17:34:53 cz1 systemd: Got automount request for /proc/sys/fs/binfmt_misc, triggered by 292977 (sysctl)
May 30 17:34:53 cz1 systemd: Mounting Arbitrary Executable File Formats File System...
May 30 17:34:53 cz1 systemd: Mounted Arbitrary Executable File Formats File System.
May 31 10:45:00 cz1 systemd: Unmounting Arbitrary Executable File Formats File System...
May 31 10:45:00 cz1 systemd: Unmounted Arbitrary Executable File Formats File System.

查看 snoopy 日志, unmount 操作由 pid 13573 进程操作, 该 pid 的 sid 为 1, pid 为 1 的进程为 /usr/lib/systemd/systemd --switched-root --system --deserialize 22, snoopy 行为等同 automount 超时自动 unmount :

May 31 10:45:00 cz1 systemd[1]: Unmounting Arbitrary Executable File Formats File System...
May 31 10:45:00 cz1 snoopy[13573]: [uid:0 sid:1 tty:(none) cwd:/ filename:/bin/umount]: /bin/umount /proc/sys/fs/binfmt_misc
May 31 10:45:00 cz1 systemd[1]: Unmounted Arbitrary Executable File Formats File System.

问题机器的 mount 信息包含如下, timeout 为 300, 这个是 systemd-219-32 之前版本的默认参数, 实际上在 219-32 版本之前红帽还未引入超时功能, 所以超过 300s 之后 automount 不会自动进行 unmount 操作, 下面的内容仅有一条 binfmt 信息, 也意味着两台机器中没有访问 /proc/sys/fs/binfmt_misc 目录的行为:

systemd-1 /proc/sys/fs/binfmt_misc autofs rw,relatime,fd=30,pgrp=1,timeout=300,minproto=5,maxproto=5,direct 0 0

备注: 问题主机由于在 yum 安装 perl 依赖的过程中更新了 systemd 到 219-57 新版, 但是没有做重启操作, 所以 mount 显示的 timeout 值还是 300, 重新 reload systemd 或重启主机后新版 systemd 生效, timeout 值会变为默认 0.

automount 如何工作

systemd 通过 automount 实现了对文件系统挂载点进行自动挂载和控制的特性, 在用户访问指定目录的时候, 由 automount 判断自动进行挂载, nfs, sshfs 等使用较多, 目前为止在 centos7 系统中我们仅发现 binfmt_msic 类型是操作系统需要自动挂载的. 详见 systemd.automount

原因说明

从上述搜集信息来看, 更像是 systemd 认为 proc-sys-fs-binfmt_misc.mount 已经关闭, 不过系统或内核还持有 /proc/sys/fs/binfmt_misc 挂载点, 引起竞争, 这样 df 在访问挂载点的时候则一直处于挂起状态. 这个问题类似 nfs 服务端异常断掉, client 端直接访问挂载点也会挂起一样. 没有做超时处理则 df 一直处于等待状态.
详见: 1534701

触发条件

由于出现问题之前几台问题主机都有 unmount 行为, 所以不能按照下面两个 bug 来概述我们出现的问题:
1498318
1534701

不过目前已知的触发条件包含以下两种方式:

第一种

人为制造异常:

1. 修改 proc-sys-fs-binfmt_misc.automount 的 TimeoutIdleSec 为大于 0 的值, 219-30 版本默认300, 不用修改;
2. 访问 /proc/sys/fs/binfmt_misc/ 目录触发 aumount 自动挂载;
3. 在1中还没有超时的时候执行 systemctl stop proc-sys-fs-binfmt_misc.mount, 手动 unmount 掉挂载点;

在执行第三步的时候 systemd 报以下异常, unmount 操作不能注册, 而系统内核会继续持有挂载点, 进而引起 df 卡住. 另外在默认 timeout 为 0 的情况下人为制造的异常不会引起 hang 住:

Jun  6 21:19:50 cz1 snoopy[162749]: [time_ms:357 login:root uid:0 pid:162749 ppid:162676 sid:162676 tty:/dev/pts/0 cwd:/root filename:/usr/bin/systemctl username:root]: systemctl stop proc-sys-fs-binfmt_misc.mount
Jun  6 21:19:50 cz1 snoopy[162750]: [time_ms:359 login:root uid:0 pid:162750 ppid:162749 sid:162676 tty:/dev/pts/0 cwd:/root filename:/usr/bin/systemd-tty-ask-password-agent username:root]: /usr/bin/systemd-tty-ask-password-agent --watch
Jun  6 21:19:50 cz1 snoopy[162751]: [time_ms:359 login:root uid:0 pid:162751 ppid:162749 sid:162676 tty:/dev/pts/0 cwd:/root filename:/usr/bin/pkttyagent username:root]: /usr/bin/pkttyagent --notify-fd 5 --fallback
Jun  6 21:19:50 cz1 polkitd[1036]: Registered Authentication Agent for unix-process:162749:2586612889 (system bus name :1.232140 [/usr/bin/pkttyagent --notify-fd 5 --fallback], object path /org/freedesktop/PolicyKit1/AuthenticationAgent, locale en_US.UTF-8)
Jun  6 21:19:50 cz1 snoopy[162755]: [time_ms:371 login:(unknown) uid:0 pid:162755 ppid:1 sid:1 tty:(none) cwd:/ filename:/bin/umount username:root]: /bin/umount /proc/sys/fs/binfmt_misc
Jun  6 21:19:50 cz1 polkitd[1036]: Unregistered Authentication Agent for unix-process:162749:2586612889 (system bus name :1.232140, object path /org/freedesktop/PolicyKit1/AuthenticationAgent, locale en_US.UTF-8) (disconnected from bus)

执行 systemctl restart proc-sys-fs-binfmt_misc.automount 即可恢复所有堵住的命令. 另外在 TimeoutIdleSec 为 0 的情况下不会复现此问题, 在 TimeoutIdleSec 大于 0 的情况下, 给 systemd 发送 kill 信号的时候会导致 timeout 失效.

第二种

如下日志:

May 31 10:45:00 cz1 systemd[1]: Unmounting Arbitrary Executable File Formats File System...
May 31 10:45:00 cz1 snoopy[6313]: [uid:0 sid:1 tty:(none) cwd:/ filename:/bin/umount]: /bin/umount /proc/sys/fs/binfmt_misc
May 31 10:45:00 cz1 systemd[1]: Unmounted Arbitrary Executable File Formats File System.

我们以 snoopy 日志的 umount 操作为出发点, 在 systemd 源文件中查找对应行为的触发条件, 以 systemd-219-31 版本为例, 只有 mount_enter_unmounting 函数进行了 /bin/umount 操作, 详见 src/core/mount.c 文件:

static void mount_enter_unmounting(Mount *m) {
...
   r = exec_command_set(m->control_command, "/bin/umount", m->where, NULL);
...
}

而 mount_enter_unmounting 函数仅被两个函数调用, 分别为正常 stop 操作的响应函数 mount_stop 和信号事件处理函数 mount_sigchld_event :

...
#define RETRY_UMOUNT_MAX 32
...
static int mount_stop(Unit *u) {
...
        mount_enter_unmounting(m);
        return 1;
}

static void mount_sigchld_event(Unit *u, pid_t pid, int code, int status) {
...
        MountResult f;
...
        if (is_clean_exit(code, status, NULL))
                f = MOUNT_SUCCESS;
        else if (code == CLD_EXITED)
                f = MOUNT_FAILURE_EXIT_CODE;
        else if (code == CLD_KILLED)
                f = MOUNT_FAILURE_SIGNAL;
        else if (code == CLD_DUMPED)
                f = MOUNT_FAILURE_CORE_DUMP;
        else
                assert_not_reached("Unknown code");
...
        case MOUNT_UNMOUNTING:
        case MOUNT_UNMOUNTING_SIGKILL:
        case MOUNT_UNMOUNTING_SIGTERM:

                if (f == MOUNT_SUCCESS) {

                        if (m->from_proc_self_mountinfo) {

                                /* Still a mount point? If so, let's
                                 * try again. Most likely there were
                                 * multiple mount points stacked on
                                 * top of each other. Note that due to
                                 * the io event priority logic we can
                                 * be sure the new mountinfo is loaded
                                 * before we process the SIGCHLD for
                                 * the mount command. */

                                if (m->n_retry_umount < RETRY_UMOUNT_MAX) {
                                        log_unit_debug(u->id, "%s: mount still present, trying again.", u->id);
                                        m->n_retry_umount++;
                                        mount_enter_unmounting(m);
                                } else {
                                        log_unit_debug(u->id, "%s: mount still present after %u attempts to unmount, giving up.", u->id, m->n_retry_umount);
                                        mount_enter_mounted(m, f);
                                }
                        } else
                                mount_enter_dead(m, f);

在 src/core/manager.c 函数中可以看到仅有函数 invoke_sigchild_event 调用了 sigchld_event 函数, invoke_sigchild_event 函数则仅在子进程退出(CLD_EXITED) 或子进程被杀(CLD_KILLED) 或子进程异常中断(CLD_DUMPED) 的时候才会被 manager_dispatch_sigchild 函数调用, manager_dispatch_sigchild 函数分别在 manager_loop 和 manager_dispatch_signal_fd 中调用.

static void invoke_sigchld_event(Manager *m, Unit *u, siginfo_t *si) {
......
        UNIT_VTABLE(u)->sigchld_event(u, si->si_pid, si->si_code, si->si_status);
}

static int manager_dispatch_sigchld(Manager *m) {
...
                if (si.si_code == CLD_EXITED || si.si_code == CLD_KILLED || si.si_code == CLD_DUMPED) {
                ...
                        if (u1)
                                invoke_sigchld_event(m, u1, &si);
                        u2 = hashmap_get(m->watch_pids1, LONG_TO_PTR(si.si_pid));
                        if (u2 && u2 != u1)
                                invoke_sigchld_event(m, u2, &si);
                        u3 = hashmap_get(m->watch_pids2, LONG_TO_PTR(si.si_pid));
                        if (u3 && u3 != u2 && u3 != u1)
                                invoke_sigchld_event(m, u3, &si);
                }
...
}

int manager_loop(Manager *m) {
...
        /* There might still be some zombies hanging around from
         * before we were exec()'ed. Let's reap them. */
        r = manager_dispatch_sigchld(m);
}

static int manager_dispatch_signal_fd(sd_event_source *source, int fd, uint32_t revents, void *userdata) {
...
        if (sigchld)
                manager_dispatch_sigchld(m);
....
}

问题主机的 umount 日志显示不是正常的 stop 操作, 但也未看找到相关的信号信息. 不过从整个 systemd 日志来看 umount 操作更像是属于上述 mount_sigchld_event 函数的行为, 即在子进程为 CLD_EXITED 或 CLD_KILLED 或 CLD_DUMPED 的时候, 调用 mount_sigchld_event 函数, 这时 systemd 的状态为 UNMOUNTING, 或者收到 SIGKILL, SIGTERM 信号的时候, 而系统或内核认为当前状态为 SUCCESS (f 变量), 在从 /etc/mtab(mtab 为 /proc/self/mountinfo 的软链) 读取到 mount 信息的时候, 当前的重试次数(n_retry_umount) 小于 RETRY_UMOUNT_MAX (32) 的时候则进行一次 mount_enter_unmounting 函数调用. 另外现在也并没有找到系统内核会和 systemd 的状态相反, 可能是子进程退出或子进程异常终止.

这种方式没有好的重现方法, 不过处理方式应该和第一种一样, 重启 proc-sys-fs-binfmt_misc.automount 即可.

解决方式

目前并没有找到真正的触发条件, 不过我们认为 df 卡住问题在本质上还是由于 systemd 和 kernel 之间存在竞争而引起的, 导致其它程序访问挂载点的时候出现 hang 住的现象, 根据 redhat bugzilla 的描述, 只要解决掉 mount 和 automount 过程中可能产生的竞争即可, 我们可以通过关闭 proc-sys-fs-binfmt_misc.automount 释放已经存在的竞争来解决 df hang 住的问题, 所以整体上包含以下三种解决方式:

1. systemctl restart proc-sys-fs-binfmt_misc.automount;
2. 升级到最新 systemd-219-57 版本; 
3. 按照红帽知识库的步骤对 proc-sys-fs-binfmt_misc.automount 进行 mask 操作, 只进行静态的 mount 操作;

这几种方式对应用程序无害, 第一种方式影响最小. 不过我们在排错的过程中发现了一些其它相关的 bug, 所以采取第二种方式会更稳妥,新版的 systemd 对 1354410 和 1498318 两个 bug 做了状态反馈处理, 即便有问题也不会出现 hang 住的现象, 另外默认超时时间为 0, 对程序来讲相当于只做了重启操作, 不过后续的版本可能存在变更的可能, 所以保险起见可以将在 proc-sys-fs-binfmt_misc.automount 配置中指定 TimeoutIdleSec=0 参数值, 避免自动进行 unmount 操作. 最后重启机器即可; 第三种操作则可能影响其它有 automount 需求的软件(比如新版本的 postgresql), 不过很多软件在检测到没有启动 automount 的情况下会进行额外的 mount 操作, 不会有严重的影响.

参考链接:

1498318
1534701
1709649
github-5916
github-commit

红帽知识库

3346491 与我们的触发条件不一样, 并不是重新激活已经 mask 的 unit 问题引起的, 仅提供了类似问题的解决方法.

其它问题

在查找根源的过程中发现了几个相关的问题, 这些问题随 systemd 版本的变更进行了修复:

219-32
- automount: add expire support(TimeoutIdleSec) (#1354410)
219-46
- automount: if an automount unit is masked, don't react to activation anymore (#5445) (#1498318)
219-57
- BZ - 1498318 - du/df hang indefinitely (RHEL Atomic Host 7.4)

Caddy nginx服务器QUIC部署

Caddy 简介

Caddy是一个Go语言写的，易于使用的通用Web服务器。它具有如下的一些功能：

配置简单：Caddy服务器的运行可以通过Caddyfile配置文件进行配置，Web服务配置起来非常简单。
自动的HTTPS：它可以自动地为我们申请 Let’s Encrypt 域名证书，管理所有的密码学设施，并进行配置。
HTTP/2：默认支持HTTP/2（由Go标准库支持）
虚拟主机托管：Caddy支持TLS的SNI。SNI是在2006年加入TLS的一个TLS扩展。客户端在TLS握手的Client Hello消息中，通过SNI扩展将请求的资源的域名发送给服务器，服务器根据SNI的域名来下发TLS证书。这样就可以在具有单个公网IP的同一台主机上部署多个不同的域名的服务。可以为Caddy服务的不同域名配置不同的证书和密钥。
QUIC支持：Caddy实验性地支持QUIC协议，以获取更好的性能。
TLS session ticket key rotation for more secure connections
良好的可扩展性：因此Caddy非常方便针对自己的需求做定制。
随处运行：这主要与Go应用程序的特性有关。Go的模块都被编译为静态库，这使得Go的应用程序在编译为可执行文件时都是静态链接的，因而依赖的动态库极少，这使得部署使用非常方便。

自动的HTTPS、HTTP/2支持、QUIC支持和随处运行这些特性非常有吸引力，特别是对QUIC的支持。

此外，Caddy的性能非常好。下面两幅图是我的静态个人博客站点，分别是用Caddy和nginx作为Web服务器，打开主页所需的加载时间对比：
Service with Caddy

Service with nginx

上面的图显示了以Caddy作为Web服务器，主页的加载时间只有680ms；下面的图显示以nginx作为Web服务器，主页的加载时间则长达1.99s，要慢接近2倍。

Caddy部署

Caddy应用程序不依赖于其它组件，且官方已经为不同的平台提供了二进制可执行程序。可以通过如下三种方式之一安装Caddy：

在下载页，通过浏览器定制自己需要的功能集，并下载相应的二进制可执行程序。
预编译的最新发行版二进制可执行程序。
curl getcaddy.com 来自动安装：curl https://getcaddy.com | bash。

将caddy的路径加如PATH环境变量中。之后可以 cd 进入网站的文件夹，并运行 caddy来提供服务。默认情况下，Caddy在2015端口上为网站提供服务。

要定制网站提供服务的方式，可以为网站创建名为Caddyfile的文件。当运行 caddy 命令时，它会自动地在当前目录下寻找并使用Caddyfile文件来为自己做配置。

要了解更多关于Caddyfile文件的写法，可以参考 Caddyfile 文档。

注意生产环境网站默认是通过HTTPS提供服务的。

Caddy还有命令行接口。运行caddy -h 可以查看基本的帮助信息，或参考 CLI文档来了解更多详情。

以Root运行：建议不要这样做。但依然可以通过像这样使用setcap来监听端口号小于1024的端口：sudo setcap cap_net_bind_service=+ep ./caddy

由源码运行

注意：需要安装 Go 1.7或更新的版本才可以。

go get github.com/mholt/caddy/caddy
cd 进入网站的目录
执行caddy（假设 $GOPATH/bin 已经在 $PATH 中了）

Caddy的 main() 再caddy子目录下。要编译Caddy，可以使用在那个目录下找到的 build.bash。

在生产环境运行

Caddy项目官方不维护任何系统特有的集成方法，但下载的文档中包含了社区共享的非官方资源，用以帮助在生产环境运行Caddy。

以何种方式运行Caddy全由自己决定。许多用户使用 nohup caddy & 就可以满足需求了。其他人使用 screen。有些用户需要再重启之后就运行Caddy，可以在触发重启的脚本中来做到这一点，通过给init脚本添加一个命令，或给操作系统配置一个service。

可以看一下我的个人博客站点的完整Caddyfile内容：

					
						wolfcstech.com:80 www.wolfcstech.com:80 {
					

					
						root /home/www-data/www/hanpfei-documents/public
					

					
						redir 301 {
					

					
						if {>X-Forwarded-Proto} is http
					

					
						/  https://{host}{uri}
					

					
						}
					

					
						}
					

					
						
					

					
						wolfcstech.com:443 www.wolfcstech.com:443 {
					

					
						tls /home/www-data/www/ssl/chained.pem /home/www-data/www/ssl/domain.key
					

					
						#tls test@admpub.com
					

					
						root /home/www-data/www/hanpfei-documents/public
					

					
						gzip
					

					
						log ../access.log
					

					
						}

启用QUIC

Caddy 0.9 已经实验性地提供了对QUIC的支持，这主要通过 lucas-clemente/quic-go 来实现。要尝试这个特性，可以在运行caddy时加上 -quic 标记：

1	$ caddy -quic

这样执行之后，则带有TLS加密的Web服务，在客户端支持QUIC时，将默认通过QUIC协议来完成数据的传输。

不启用QUIC时，在启动caddy之后，在服务器端查看已打开的端口号：

					
						# lsof -i -P
					

					
						COMMAND     PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
					

					
						AliYunDun 1120 root 10u  IPv4 2023899 0t0  TCP 139.196.224.72:40309->106.11.68.13:80 (ESTABLISHED)
					

					
						. . . . . .
					

					
						caddy 6163 root 6u  IPv6 2338478 0t0  TCP *:80 (LISTEN)
					

					
						caddy 6163 root 8u  IPv6 2338479 0t0  TCP *:443 (LISTEN)
					

					
						. . . . . .

而在通过如下命令：

1	# nohup ./caddy -quic &

启用QUIC提供Web服务之后，在服务器端查看已打开端口号，则可以看到如下内容：

					
						# lsof -i -P
					

					
						COMMAND     PID  USER   FD   TYPE  DEVICE SIZE/OFF NODE NAME
					

					
						AliYunDun  1120  root   10u  IPv4 2023899  0t0  TCP 139.196.224.72:40309->106.11.68.13:80 (ESTABLISHED)
					

					
						. . . . . .
					

					
						caddy  6222  root    6u  IPv6 2338880  0t0  TCP *:80 (LISTEN)
					

					
						caddy  6222  root    8u  IPv6 2338881  0t0  TCP *:443 (LISTEN)
					

					
						caddy  6222  root    9u  IPv6 2338883  0t0  UDP *:80
					

					
						caddy  6222  root   10u  IPv6 2338885  0t0  UDP *:443
					

					
						. . . . . .

Caddy 除了监听http的TCP 80端口和https 的TCP 443端口之外，还监听了UDP的80和443端口。

客户端支持

Chrome 52+ 支持QUIC而无需白名单，但需要确认 #enable-quic 标记已经被启用了。通过在Chrome浏览器的地址栏输入chrome://flags/：

Enable QUIC

并根据需要启用QUIC。

然后通过Chrome打开你的网站，则它应该是以QUIC提供服务的！可以通过打开inspector 工具并进入Security tab来验证这一点。重新加载页面并点击来查看连接详情：

如果你使用老版的Chrome，则为了省事，可以升级一下。

如果你不想升级，则可以：你将需要以特殊的参数来运行Chrome。再Mac上 (将YOUR_SITE替换为你的网站的实际域名)执行如下命令：

					
						$ /Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome \
					

					
						--user-data-dir=/tmp/chrome \
					

					
						--no-proxy-server \
					

					
						--enable-quic \
					

					
						--quic-host-whitelist="YOUR_SITE" "YOUR_SITE"

QUIC的好处

QUIC是基于UDP的TLS+HTTP的可靠传输协议。它加速了TLS握手为只有一个往返，避免了TCP慢启动，并提供了网络切换时的可靠性。通过QUIC可以让网站加载更快且更可靠。

问题排解

首先，确保在Caddyfile文件中为域名做了适当的设置，还要确保在启动Chrome的命令行中为域名做了适当的设置。

接着，网站必须使用一个真实的可信的证书（至少，是在写的时候）。

如果那都是好的，而且你对Go语言比较了解，则你可以添加 import "github.com/lucas-clemente/quic-go/utils"，并在Caddy的main()函数的某个地方调用utils.SetLogLevel(utils.LogLevelDebug)。那将提供非常详细的输出。（注意这个log设施不是一个公共的API）。

当你进入chrome://net-internals/#events，你应该看到一些QUIC事件被标为红色。

Net Events

坚持原创技术分享，您的支持将鼓励我继续创作！

https://www.wolfcstech.com/2017/01/09/Caddy%20Web%E6%9C%8D%E5%8A%A1%E5%99%A8QUIC%E9%83%A8%E7%BD%B2/