期权交易心得

Posted on 2025年 10月25日 by admin

之前因为造就了上市公司美团、以及在大肠腾讯上班的缘故，手里是有不少员工股的。但是那时候不开窍，对难以引入内地的资产也一直不算太在乎。2024秋季，NVDA突发暴跌到90几美元。当时恰好在旅游，心情不错就买了一点。但这笔操作是以美团为抵押，找券商融资而得的。2025年4月特朗普股灾，美港双跌，我的美团股票被强制平仓，我自己把剩余部分也清了，避免了进一步损失。

灾后重建阶段，我开始学习期权的知识，并尝试使用covered call加速手里剩下的NVDA股票的回升，但因为目光短浅，终止在155左右，没吃到155到180这段涨幅。

不过这段经历倒是重塑了我对证券市场的认知，从此开始，我很少交易股票，转向交易期权，并略有心得。

Long or short

如果对后面的趋势有清晰坚定的看法，可以作为买方。在AMD和OpenAI宣布合作的那天，盘前AMD暴涨。我考虑到之前已经有好几家上市公司利用和OpenAI的合作来炒作“市值管理”，觉得开盘之后应该会跌回去。虽然我错了，但是我买的PUT还是在市场情绪波动的半小时内给我带来了（扣除费用之后）3976美元的利润。

但在平常，没有什么八卦消息的时候，我只是一个卖低价PUT、卖宽跨式的卖方而已。

Call or put

除了常见的“买方风险有限、卖方风险无限”之外，期权本身的方向也是影响风险的因素。

买期权如果买反了，权利金报废是最大风险。但是还有一种情况就是方向正确，但你没能力行权而且还忘记提前平仓，冤死。我不知道这种情况会不会真的发生，希望只是停留在我的恐怖幻想中吧。在小红书上看到有人遇到了，下边评价说在最后几个小时，券商会试算行权，如果发现买方没能力行权，会强制卖出平仓，算是为买方回收一点残值吧？然而小红书上还看到，东方财富的内地ETF期权是按照弃权来处理的！

卖put，要准备好被指派，自己被迫买下股票，所以提前就得做好思想建设，要选择自己喜欢的股票和能捏着鼻子忍了的价格。在期权价格上升（股票从高价跌向行权价）过程中，券商会提高保证金要求。如果补不足，可能会被强制平仓。这种交易的极端风险是股价不但跌破期权的行权价，甚至跌到0，最后你花了行权价的钱买了一堆废纸回来，虽然也挺惨，但毕竟不是无限。

卖call，我在卖宽跨式的时候遇到过涨超范围的情况。想象一下，股价有可能涨上天，而对手还是按原来约定的行权价来找你行权，这个风险理论上是无限的。

Strike price

我喜欢选择at the money附近，偏向out的那边一点点。

作为买方，我不想花钱买内在价值。如果一开始花钱买了，我没把握将来卖掉的时候这个内在价值还依然存在。换个角度，即使还存在，这部分花费也白白占用我的资金那么长时间，也不好。

作为卖方，卖出in the money的期权，无异于刀尖舔血，这说明从一开始你就处于被对方指派的价格区间了，你卖得的这部分内在价值，其实只是借来的，很可能还要还回去。

Expiration date

因为日常卖PUT，我喜欢一个月之内的，就当每月发工资。短线操作，我一般是作为买方，可以选更短期的，提高资金使用效率。

买方真的会行权吗？

之前卖PUT的日常，其实见过挺多次跌破行权价的情况。不过我大都选择死扛了，也有8月底美团财报这种极少数割肉平仓的情况。

换位思考：如果自己是买方，距离到期日还很远的情况下，提前行权虽然可以拿到内在价值，但是需要花费行权成本，且浪费了剩余的外在（时间+波动）价值，倒不如直接卖掉，我只吃差价就好了。如果临近到期，期权的流动性比较差，这时候还愿意花钱买的估计只有卖方忍痛买回去平仓了，买方可以选择卖回，也可以选择行权吧。

到底什么人会买二手期权呢？有看法相同、但是进场比上一手更晚的人；有意见相左的人；还有卖方买回去平仓的情况。

我的日常配置

所有资金全都买券商自动申赎的货币基金，赚每天几十块钱的生存费。另外卖低价PUT，依靠卖方的高胜率搏一个中等收入。有八卦新闻时，猜方向，买期权爽一把。

Posted in 默认分类 | Tagged Finance, Options, Stocks | Leave a comment

开发Telegram bot的几点心得

Posted on 2024年 12月7日 by JulyClyde

Telegram bot 可以是一个HTTPS服务（Webhook模式：被动push Update）或者daemon（getUpdates模式：主动pull Update），不断的从bot API server获得Update，进行处理，做出动作，而实现一些功能。

Update解析

Telegram bot收到的Update对象有个不好的地方，就是它没有自带type属性。为了判断该Update到底是什么类型，需要先试探性的检查几个特定属性是否在Update内，然后再dispatch给各个type特定的处理函数。

输入控制

考虑到bot需要处理用户私聊和群聊两种场景，在获得update之后马上进行分类是必须的。

chat id == from id的情况下，bot收到的消息是私聊的。这种情况下一般消息上不会带有at bot的标志，不过偶尔也有人手贱非要输入，建议先无脑过滤掉，再进一步处理。此类bot大部分都是查询/控制类功能的bot，需要判断：发消息的人是否有权限对我发消息进行查询和控制

chat id != from id的情况下，bot收到的消息是群聊，chat id是群的ID号，from id是发消息人的ID号。如果bot被设计为处理群里的消息，在此时需要进行进一步判断：

消息是来自我乐意管理的群吗？
是普通消息还是botcommand消息？（对于一些群管机器人的发言积分、自动回复功能，一般是不需要特地at bot的，也不需要使用botcommand格式）
如果是botcommand消息，发消息的人有权限吗？

响应

虽然Telegram在webhook模式提供了
Making requests when getting updates 功能，但似乎一次只能返回一个动作。考虑到业务的复杂性，有时候需要做出多个动作，比如群管机器人的删除/封禁动作，既要做出删除封禁动作，还要给管理员回复一个消息，甚至有时候需要延迟一段时间再做动作等等……还是建议直接调用bot API实现功能，而不要使用在返回体中调用API的方法。这玩意，也就聊胜于无吧。

限制：forwardMessage处理多图

一个经常遇到的需求就是：监听群，收到某种消息之后就自动转发到另一处。但是一旦遇到这个消息含有多个图，情况就会变得糟糕，人类看来是一个消息带了多个图，但在bot API里会被分拆成多个Update，其中第一个图和文字组成第一个Update，其它的每个图分别一个Update，它们拥有相同的media_group_id号码，似乎可以相互关联；

单从Updates的角度来看，你需要等到下一个不带media_group_id号码的消息，或者拥有不同的media_group_id号码的消息，才能确定上次的一组media已经收集齐全了，然后才能用forwardMessages一次性转发把这堆内容转发过去，这样它在目标chat里才会正确的粘连起来；如果还没有凑齐就调用forwardMessages，则多次forwardMessages转发过去的消息之间并不会自动粘连。

但问题是：并没有一个字段声明这个media group里到底有多少个内容，也没有任何情报指出Telegram保证把这一堆Update放在同一个Updates里，尤其是：Webhook模式一次只能收到一个Update、getUpdates模式你指定的limit说不定会小于拆分的瓣数，甚至拆出来的好多瓣有可能是bot的不同实例分别处理的。

再加上绝大多数bot的写作方式都是循环一圈仅处理一条Update，导致：凑齐media group里所有内容这个需求存在工程上的困难

Posted in 默认分类 | Tagged bot, Telegram | Leave a comment

在Python里抑制requests库的日志消息

Posted on 2023年 03月1日 by admin

我自己经常在自己的脚本开头使用logging.basicConfig(level=logging.DEBUG)初始化logging库，但是随之而来的就是requests会输出大量日志，甚至盖过了我自己的内容。所以我打算抑制requests的日志。

综合搜索的资料，和探索源代码，我发现：

其实requests代码里根本就没有调用任何logging/logger，甚至它还在__init__.py里给“自己的”logger设置了NullHandler
docs/api.rst 文档里其实讲了怎么“配置”日志，只是没有“supress”这个词，以至于我没搜到
通过在Format里加上%(name)s，可以发现写日志的其实是urllib3.connectionpool

所以只需要在basicConfig后面加一句

logging.getLogger(“urllib3”).setLevel(logging.WARNING)

就可以抑制这部分日志了。

另外，logging.Logger.manager.loggerDict是个好东西，可以检查当前到底存在哪些logger。通过检查loggerDict[‘urllib3.connectionpool’].propagate发现其为True，其上层也是True，因此，虽然这两层logger一个没handler，一个NullHandler，但是该logger记录的日志消息仍会逐层上传，最终被basicConfig的root logger处理。

Posted in 默认分类 | Tagged Logging, Python, Requests | Leave a comment

GNU和BSD版本的xargs 分隔符不同

Posted on 2023年 01月13日 by JulyClyde

例子：
list="a b c d e"; echo $list |xargs -n1 -I{} echo begin {} end

在Mac上执行结果：
begin a end
begin b end
begin c end
begin d end
begin e end

在Linux上执行结果：
begin a b c d e end

我这里的需求是有一堆输入，要分别以其为参数，执行一些命令，无论是否成功都要对所
有目标执行，所以
1 “一些命令”我选用shell function来实现，在其中读了$1作为本次处理的目标
2 “所有目标”我选用xargs；如果选Parallel还得额外安装

结果发现xargs在切分“以空格为分隔符”的字符串的时候，GNU版本默认不切分，结果把
整个“含空格分隔符的字符串”传给函数，执行了一次，而函数里又选了$1作为本次执行
目标，其综合结果就是只对列表中第一个目标执行了一遍

更惨的是我对比的时候是在Mac上做的对比，怎么看怎么顺眼……

最后请教同事，用xargs的-d参数解决的

   This  manual page documents the GNU version of xargs.  xargs reads items from the standard input, delimited by blanks (which can be protected with double or single quotes or a backslash) or newlines

GNU xargs的manpage说支持blanks 按说空格也应该可以啊……
xargs.c的read_line函数里：

893 /* POSIX: In the POSIX locale, the separators are <SPC> and 894 * <TAB>, but not <FF> or <VT>. 895 */ 896 if (!bc_ctl.replace_pat && ISBLANK (c)) 897 { 898 *p++ = '\0'; 899 len = p - linebuf; 900 if (EOF_STR (linebuf)) 901 { 902 eof = true; 903 return first ? -1 : len; 904 } 905 bc_push_arg (&bc_ctl, &bc_state, 906 linebuf, len, 907 NULL, 0, 908 initial_args); 909 p = linebuf; 910 state = SPACE; 911 first = false; 912 continue; 913 }

这一段状态机代码应该是“之前读到了普通字符，这次读到了空格”的处理，这时候应该把已经读到的这一段作为一个参数加到列表里去

看它的判断条件if (!bc_ctl.replace_pat && ISBLANK (c))
其实是要求没用-i/-I参数，且本次读到的字符为空白

验证一下，去掉-i之后：

echo a b c d e |xargs -n1 echo begin {} end
运行结果就几乎正确了。虽然丧失了使用占位符的能力，但至少它确实按照空格进行分割了
begin {} end a
begin {} end b
begin {} end c
begin {} end d
begin {} end e

我觉得这个判断条件就是个bug。但是有网友指出：按照POSIX标准、GNU xargs的文档，开启-I就是强制一整行的，我的用法不清真。对此我只能说：满足标准但是不满足需求啊，为什么输出端的参数会影响输入端的行为呢？

Posted in 默认分类 | Tagged Linux | Leave a comment

昨天遇到collectd exec插件的bug，顺便发现他们不按套路出牌啊

Posted on 2022年 12月15日 by JulyClyde

先说症状：

collectd exec插件调用的几个外部脚本，其中总会随机有一个缺少COLLECTD_HOSTNAME和COLLECTD_INTERVAL环境变量。

搜了一下是这个bug https://github.com/collectd/collectd/issues/3041

然后我好奇啊，就读了一下修改前后的代码，发现collectd不按套路出牌。

带有bug的版本：

先setenv()设置主进程自己的环境变量，然后尝试fork()，如果成功，在子进程里execvp()；主进程重新unsetenv()恢复主进程自己的环境变量。在多个exec密集执行的时候，都会访问主进程的环境变量，会有race condition，偶尔会发生前一个exec插件刚unsetenv()然后后一个exec插件开始fork()的情况，丢失环境变量。

修复后的版本：

先fork()，在子进程里准备环境变量数组，尝试execvpe()带签署环境变量数组作为参数，执行新进程（execvpe()为GNU专有扩展），或者先设置extern char **environ指针指向准备好的数组，然后execvp()执行新进程直接继承。

别人家套路：

先准备环境变量数组，然后fork()，在子进程里execve()并使用前述环境变量数组作为参数。

Posted in 默认分类 | Tagged collectd, Linux | Leave a comment

Tencent tlinux的$releasever比Redhat原版更反动

Posted on 2021年 12月3日 by admin

前几年我写过一篇批判$releasever的博客之后，现在工作中又用到了tlinux，而且发现它的$releasevar居然是2.2，是带小数的。但是看了看tlinux-release的主版本号确实是2，不带小数；它provide的centos-release的主版本号也是7，也不带小数。

折腾了一番，发现yum的config.py里，class VersionGroupConf下边的_read_yumvars(yumvars, root) 函数，直接提供了用 /etc/yum/vars/ 下边的文件来设置release属性的方法。

Posted in 默认分类 | Leave a comment

supervisor泄漏进程案例分析

Posted on 2021年 06月30日 by admin

起因

前几天使用 salt ‘*’ test.ping 的时候发现响应内容中有一些“某某minion was already deleted from tracker, probably a duplicate key“的提示信息。刚开始误以为是salt-key管理有问题，尝试删除再重新accept，但是依然会出错。到该minion上检查，发现上面运行了两套salt-minion*三层进程树，一共6个进程，其中一套的PPID为1，另一套的Parent是supervisord。

然后就开始研究这种情况是怎么产生的，发现有两种可能：

第一种可能

supervisor本身不被systemd监管，被SIGKILL信号杀死时，因为SIGKILL由内核直接处理，所以并没有机会关闭下属的进程，导致下属salt-minion进程树泄漏。而且不但salt-minion进程树泄漏，连同样被supervisor监管的另一个服务也一并泄漏，二者的PPID都变成了1号。

不过，如果supervisor本身被systemd监管，在其主进程被杀死时，systemd会给整个service slice cgroup里所有进程补刀，所以并不会泄漏进程；如果supervisor是被SIGTERM信号杀死，它也会给下属子进程发信号，一般也不会泄漏进程。

第二种可能

supervisor没有受到影响，正常运行；supervisor监管的salt-minion三层进程树的其中最高层进程（也就是supervisord的直属子进程）被SIGKILL信号杀死，随即，第二层进程exit(1) （不明原因，可能需要看一下salt-minion源码），导致第三层进程变成孤儿。经检查源代码的_spawn_as_child()函数，supervisor针对其监管下的每一个服务，都是采用 fork() + setpgid() +execve() 的方式来启动的，在调用setpgid()改变了process group id之后，第三层进程的孤儿收养关系就不再归属于supervisord进程，而是归属于1号进程。

随后supervisor会重启salt-minion服务，产生新的3个进程，加上之前剩下的，一共4个。

结论

考虑到观察到6个进程而不是4个，实际发生的大概是前一种情况
supervisor虽然有“能力”处理进程退出之后马上重启的工作，但是因为使用了setpgid()把下属服务与自己隔离，没使用cgroup机制把下属服务单独圈起来，又不具备1号的神圣地位，其实它并不知道到底下属了多少、哪些进程，从机制原理上就根本无法保证所有下属的孤儿进程都被其reap。还是建议不要在严肃场合使用
1号进程神圣，所有的服务进程监管工作都应该交给1号进程来处理

Posted in 默认分类 | Tagged Linux, Saltstack, 规范化 | Leave a comment

滥用crond触发systemd-login故障一例

Posted on 2021年 06月30日 by JulyClyde

故障现象

2021年1月20日接到通知，要把systemd升级到219-73.tl2.10或以上、并把rsyslog一起升级，以修复/var/log/messages无日志内容的bug。经实验，发现使用yum升级两个软件包之后，systemd-logind的可执行文件也被更新，导致该服务处于原可执行文件已删除的状态，所以我提议，在升级步骤中增加重启systemd-logind服务的动作。在Ansible playbook里，因为不能表达“大于219-73.tl2.10“这种范围型版本号，所以就明确指定systemd的版本为当前yum能自动安装到的最新版本219-78.tl2.3

2月1日由同事执行更新操作之后，大部分节点都正常工作，但有两台发生重启事故，另有一台上的 35777 systemd-login进程占内存高达4～6G。这三台恰好是一组elasticsearch的三台master节点，均为C8机型，即16G内存的kubernetes容器。

检查修复

我尝试重启剩余的这台的system-logind，发现新进程3851号仍然占6G内存。查看/proc/3851/smaps，该区域为heap；用pmap命令查看，显示为[ anon ]。对比正常服务器的同一个内存区域，才244K而已。

检查三台故障机及其宿主机的日志，发现大量oom记录，其中重启的两台所属宿主机的kubelet也发生故障重启：
Feb 1 18:43:50 TENCENT64 kubelet: panic: runtime error: invalid memory address or nil pointer dereference

先gcore一份保留故障现场。
由于操作系统组同事不登录上来观察，仅提供重启进程等建议，我只好自己做检查。
根据建议，检查了dbus服务（dbus-daemon进程），发现也是可执行文件被删除的状态。检查yum日志，发现在去年6月升级了dbus包，但是服务进程是3月5日启动的，也就是升级包的时候并没有重启这个服务。
再次尝试重启systemd-logind，新进程14278号，发现用内存VmPeak: 5270484 kB；但是过了一会儿再观察，发现增加到了VmPeak: 6599828 kB。这说明内存的增长是一个过程，虽然增长比较快，但并不是一下子就6G的。于是我决定strace一下它。

先关闭systemd-logind服务。使用命令strace -ff -s 1000 -p 1挂在systemd主进程上做跟踪，并用-o参数把多个进程的跟踪记录分别写在文件里。然后启动systemd-logind服务。这样，strace可以跟踪到 1号进程clone+execv执行systemd-logind的瞬间，以及systemd-login最开头的行为。
检查systemd-login的strace记录，发现大量访问 /run/systemd/session/ 目录下面文件的动作。检查该目录，发现大量残留文件。
搜索，发现 https://www.jianshu.com/p/343a072e2521 、https://github.com/systemd/systemd/issues/1961 等内容，遂决定用systemctl stop命令清理这些残留的session scope。清理之后再重启systemd-logind服务，恢复正常。

为了验证这个问题，再次拿出之前的gcore，查看指定地址，发现大部分数据为0，个别位置稀稀拉拉的确实发现一些/run/systemd/session/下面的文件名等字符串，但是浓度极低，缺乏作为线索的价值。

原因分析

查看/run/systemd/session/下面残留的session文件，发现绝大部分都有SERVICE=crond这一行。检查crontab发现，腾讯内部常用的山寨启动服务和山寨看守进程的方式（即在cron里ps查看，如果进程消失就再次启动）导致了elasticsearch的java进程被计入user session。在219版本systemd的logind.conf配置文件里，KillUserProcess默认值为no（注意systemd后续某版本的默认值变成了yes！！！），man logind.conf没多说什么，但是新版本的man logind.conf说设置KillUserProcess=no会导致 user session scope保持在abandon状态，即我们遇到的这种症状。
所以，山寨的看守进程方式，是导致本次故障的根本原因。这种方式不仅内部，连对外服务的腾讯云也有类似问题：https://www.jianshu.com/p/343a072e2521

这里有一篇关于关于cgroup v1 empty notification在容器内失灵的邮件，提到了session回收的机制：https://listman.redhat.com/archives/libvir-list/2014-November/msg01090.html

使用dbus-monitor和strace观察的时候，dbus-monitor可以观察到session scope的UnitRemoved、session的SessionRemoved等事件在dbus上传输；不过此时挂上strace去观察systemd-logind却往往是正常工作的状态。
单独使用 dbus-monitor 但不用strace，发现残留的session后，再去查阅dbus-monitor的记录，发现在SessionRemoved消息之后出现的
path=/org/freedesktop/login1/user/_0; interface=org.freedesktop.DBus.Properties; member=PropertiesChanged
这个消息的消息体特别巨大，内含近六百个session的编号，应该是全量更新该用户下属的session列表，而不是差量更新。所以我认为session残留其实是个旧数据累积导致的systemd-logind的性能雪崩问题。

此外，dbus-monitor还观察到PolicyKit （polkit.service）服务启动的时候也有大量的session信息在dbus上传输，polkit服务启动后迟迟不能就绪。这个服务如不就绪，会导致systemctl重启服务的动作失败、reboot等命令也可能失败（https://github.com/systemd/systemd/blob/main/src/systemctl/systemctl-start-unit.c#L254 调用polkit_agent_open_maybe()函数）。这样就产生里一个循环依赖：清理残留session需要systemctl命令，systemctl命令需要polkit授权，而polkit也被残留的session给害死了无法正常工作。如果发生这种情况，就只好手工删除session文件，残留一些其他数据在内存里（参考https://github.com/systemd/systemd/blob/main/src/login/logind-session.c#L745）并借助外部机制进行整机重启。

另外，在大量执行systemctl stop session-XXX.scope的时候，也会给systemd-logind带来压力，因为每次开始或者结束session，都会把session号码写入UID对应的 /run/systemd/users/{uid} 文件内

每次变动都会导致这个文件全量覆写，代价也是很高昂的。在残存的session极多的情况下，很难缓过劲来。使用systemctl stop修复的耗时甚至会超过使用重启方法修复的耗时。
————————
另外两台因为oom整机重启， /run/ 是systemd管理的tmpfs，重启后内容丢失，躲过一劫。

经同事提醒，在另一台服务器上虽然也是用crond启动后台服务，但是却没有发生类似症状。我检查发现，该服务器上java进程所属的cgroup是system.slice/crond.slice ，继而发现其/etc/pam.d/password-auth文件被替换过，从一个包含pam_systemd.so的配置文件，变成了指向password-auth-ldap文件的符号链接。因为crond在变换执行身份的时候没有经过pam_systemd.so 所以也不会被systemd-logind 记录，不产生session，也自然不会有残留。这种更改误打误撞让这批服务器躲过一劫。但是由于公司内软件山寨的安装方式，到底谁改了这个配置文件、password-auth-ldap文件属于哪个软件，我费了很大劲才打听到是一个内部用于管理ssh登录权限的软件。

触发条件总结

/etc/pam.d/crond遵守系统默认值，即：包含pam_systemd.so，就会把crond产生的子进程放到user session里去。具体到腾讯内的具体情况，如果安装了那个ssh登录权限管理软件，则可侥幸躲过一劫。
cron任务比较频繁的时候，会产生大量的Session新建和销毁消息，伴随全量更新，对logind造成较大压力；在其未能处理完毕的时候下一次更新数据又来了，造成累积

改进建议

自研软件包也应该做成RPM包，实现安装过程标准化、文件可追踪（rpm –list）可验证（rpm –verify），可以追查哪个文件属于哪个软件包（rpm –query –file）
服务启动应该托管给systemd作为service unit，由systemd负责进程的启动、故障重启和关闭
应弃用容器作为服务器这种做法，规避cgroup v1 empty notification的问题

systemd的好处有：

通过cgroup可以知道Which Service Owns Which Processes，确保关闭服务时没有泄漏子进程请（参见《supervisor泄漏进程案例分析》）；
通过SIGCHLD实现低代价（无额外进程vs. bash+ps+grep+grep）、实时（vs. crond的一分钟粒度）监测进程存活性
通过service unit file的声明式写法，使服务脱离用户级运行环境、脱离user.slice、system.slice/sshd.service和system.slice/crond.service的cgroup，拥有自己独立干净的启动条件，避免受到用户环境变量、rlimit等设置的干扰和传染

附清理方法：
必须判断进程是否存在，然后再清理残留的session scope，否则会误关闭进程。比如：
# grep name=systemd /proc/$(pidof java)/cgroup 1:name=systemd:/kubepods/pod480ee9e9-5ec9-11ea-bf78-6c0b84d57dd5/2b34cb158d5fa1db6f17d9099c3b5314f67223f6aeb71c3c6cedbafd84df0b24/user.slice/user-1002.slice/session-47639512.scope
这里java进程的cgroup是session-47639512.scope ，则/run/systemd/sessions/47639512 文件不应该被删除，也不应该执行 systemctl stop session-47639512.scope

然而，从session入手，推断其下属进程是比较困难的。
可以用下列命令判断，session文件存在但是cgroup已经消失的情况，以及cgroup存在但是内部不包含进程这两种情况，然后输出其路径或执行systemctl stop清理：
cd /sys/fs/cgroup/systemd/user.slice/; find /run/systemd/sessions -type f | xargs -n1 -i bash -c 'source {} 2>/dev/null ; DIR=user-$(getent passwd $USER|cut -d: -f3).slice/$SCOPE; ( test ! -d $DIR || test ! "cat $DIR/tasks" )&& echo stop $SCOPE || echo keep $DIR'

如果在C8机型上运行，上述cd的路径应参考/proc/1/cgroup的内容，修正为
`/sys/fs/cgroup/systemd/kubepods/pod{POD号}/{容器号}/user.slice/

Posted in 默认分类 | Tagged Linux, systemd, 规范化 | Leave a comment

Reproducible builds 果然是很重要的

Posted on 2020年 04月26日 by admin

去年10月17日公司出了个事故，“幸好有我“，力挽狂澜。我觉得还是把具体内容脱敏，记录一下吧，免得将来忘了。

早晨test环境某个自研产品组件build成功，但是运行时错误日志里一堆“Broker hostname updated”等等，仿佛孔乙己说的话，让人听不懂。我刚开始没把这个当回事，请Kafka管理员去检查，几个小时都没查出原因来。

到了午后，各自研组件纷纷开始更新Live环境的版本，发布的都是前几天在Test环境已经测试定稿的版本，居然也出现了类似的问题。更狠的是，回滚居然也无效！

最终查实，有不少自研产品的build脚本里，使用wget下载master版本的librdkafka然后编译使用。而librdkafka恰在前一天（10月16日）被提交了很多修改。当时紧急解决的方法是使用librdkafka的上一个被明确标记了tag的v1.2.1版本代替master版本。

事后复盘处理过程，觉得当时的处理过程也有问题：所谓回滚其实并非直接使用旧版本编译出来的docker image，而是重新build了旧版本，而且编译时指定的是branch名字，而不是精确的commit id，这样的问题是无论外部代码（master版本的librdkafka）还是自研代码（注意branch有可能move forward哦），都不一定是原来的版本，这个行为其实并不能称作回滚，而是带有主观回滚意向的一次重新构建。

在这种情况下，讨论自研代码和外部库的质量，都是缺乏讨论基础的。这种讨论应该基于确定的版本。

说实话，我以前对于传说中的“Google把自研代码、外部库和工具链”全都纳入版本化管理，是有点嗤之以鼻的。当时我觉得这种做法，在处理多个自研软件的外部依赖相互冲突时，会带来额外的行政成本，在国内企业的KPI风格下，会导致相互推诿。经过这次力挽狂澜之后，觉得相互推诿其实是KPI至上主义导致的，而不是把所有代码都管起来导致的；不过是否真的要管这么大范围，尚有待商榷。

Posted in 默认分类 | Tagged 规范化, 软件工程 | Leave a comment

广东电信IPTV 华为EC6108v9c 的使用经验

Posted on 2020年 03月11日 by admin

前天（3月9日）终于拨乱反正把还剩下近一个月但网络“几乎能通”的垃圾天威视讯给弃用了，换了正经运营商中国电信广东深圳公司的上网服务，并且开通了IPTV。因为今年租的房子是正经居民房，就遭遇到了经典的“弱电箱距离电视机太远”的问题。

本来IPTV盒子可以支持Wi-Fi的，但它很快就强制自动升级，把本来支持的Wi-Fi联网方式给去掉了。

网上找到一个固件，保留了“粤TV”app，并且重新开启了Wi-Fi功能，且开放安装外来安卓软件。刷新说明里写着放在FAT32的U盘里，文件名叫update.zip，开盒子之后在bootloader过程中按左右键进入recovery，然后apply update from external storage即可。但我照做的时候，recovery提示没有找到升级包。

再搜，发现还有一个所谓按待机键进入recovery的，但我按不出来。妄want图to 拆盒子短接跳线，还从盒子里掉出一个虫子尸体，算是给祖师爷致敬了。

我想了想，可能这俩方法是不同时期的。于是我在当前recovery里apply update from backup刷回旧版了，（中间还操作了一步wipe dalvik cache，清除新版的升级包，避免旧版开机之强制刷新新版）然后再按待机键进入旧版recovery，刷了这个update.zip进去。

再说网络。官版固件有线网接入，目前是IPoE（其实就是特殊的DHCP）或者PPPoE认证的；直接DHCP无法获得IP地址。我改了一下光猫，把原来的VLAN 45上联业务，从PPPoE桥接模式（即：客户端自己PPPoE）改为PPPoE路由模式，并开放下行DHCP服务，再关联到SSID1上，用IPTV盒子去连这个Wi-Fi即可。理想情况下应该开多个SSID，但我这个光猫似乎不支持多个，所以这个2.4G only的Wi-Fi就给IPTV用，而自家其他通用设备使用的Wi-Fi，用了额外一个5GHz路由器从有线网口转出来。

Posted in 默认分类 | Tagged Android, IPTV | 1 Comment

七月的夏天

期权交易心得

开发Telegram bot的几点心得

Update解析

输入控制

响应

限制：forwardMessage处理多图

在Python里抑制requests库的日志消息

GNU和BSD版本的xargs 分隔符不同

昨天遇到collectd exec插件的bug，顺便发现他们不按套路出牌啊

Tencent tlinux的$releasever比Redhat原版更反动

supervisor泄漏进程案例分析

起因

第一种可能

第二种可能

结论

滥用crond触发systemd-login故障一例

故障现象

检查修复

原因分析

触发条件总结

改进建议

Reproducible builds 果然是很重要的

广东电信IPTV 华为EC6108v9c 的使用经验

Meta

Blogroll

Mine

Update解析

输入控制

响应

限制：forwardMessage处理多图

起因

第一种可能

第二种可能

结论

故障现象

检查修复

原因分析

触发条件总结

改进建议

Tags

Meta

Blogroll

Mine