Posts

Python 3.9 新特性回顾
May 5, 2022 --- · 4 min read · new features ·
Share on:
Python 3.10 虽已于 2021/10/04 发布，但目前主要使用的 Python 版本仍然是 3.9。之前有两篇介绍了 Python 3.7 和 3.8 带来的新特性
1. Python 3.7 所带来的新特性
2. 体验一下 Python 3.8 带来的主要新特性
于此，再补充一下 Python 3.7 和 3.8 各自的发布日期是 2018/06/27 和 2019/10/14。Python 3.9 是在 2020/10/05 发布，由此看出 Python 是每年一发布。

每个版本的主要新特性就是它们的亮点，不关注新特性也就不能很好的掌握这种语言，除非是直接使用汇编或字节码指令，他们的变迁比较缓慢。

对于以 Python 3.9 为现阶段基准版本使用来说，更有必要了解一下 Python 3.9 的新特性，不然别人一见代码就仿佛是以二战时的打法应对现代战争。

Python 3.9 主要有哪些新特征呢？总结起来就是

字典的更新/合并, 字符串新增删除前/后缀的方法，datetime 支持时区了, Executor.shutdown() 可取消未执行的任务，类型提示可直接用 list[str], dict[str, int] 这样表示泛型 Read More
构建 AWS AMI 镜像(EC2 Image Builder + Terraform)
Apr 12, 2022 --- · 5 min read · AWS Terraform AMI ·
Share on:
使用到 AWS 的 EC2 服务时，选择一个基础镜像后，要定制的话需要在 userdata 中写上一堆脚本。如果不想每次重复 userdata，或者要更快速的初始化一个虚拟机，就应该定制自己的 AMI，特别是在 Batch, ECS, EKS 选择的基础镜像还不方便使用 userdata。

定制一个 AMI, 我们可以用 aws create-image 命令，或是 HashiCorp 提供的 Packer(它不仅支持 AWS, 还能为阿里云，Azure, Google 云，vmware, docker, Vagrant 等定制镜像)。而我们这里将要介绍的仍然是 HashiCorp 公司的 Terraform 并结合 AWS 的 EC2 Image Builder 服务来构建 AMI 镜像。

EC2 Image Builder 是 2019 年 12 月 1 日推出来的服务，见 Introducing EC2 Image Builder。

构建一个镜像的基本过程是选择一个基础镜像来启动一个实例，然后在该实例中做一系列的操作，再保存操作后的状态为自己的镜像。这和用 Dockerfile 定制自己的 Docker 镜像是类似的。 Read More
DB2 "The transaction log for the database is full" 问题的解决
Feb 16, 2022 --- · 2 min read · DB2 ·
Share on:
在使用 DB2 的 Community 版本的 Docker 镜像 ibmcom/db2 进行测试，启动 Docker 容器的命令是
$ docker run -name db2server --privileged=true -p 50000:50000 \
-e LICENSE=accept \
-e DB2INSTANCE=db2user \
-e DB2INST1_PASSWORD=password123 \
-e DBNAME=test \
ibmcom/db2
当使用多线程以及 JDBC 的 Batch Update 时，出现 "The transaction log for the database is full" 问题，一旦出现这个问题时，用数据库客户端连接后即使执行一条简单的 insert/update 语句也会报同样的错误。于是只能减少线程数和 Batch Update 时的记录来勉强过关，但性能上与其他数据库就有很大的差别了。 Read More
AWS Windows EC2 实例的 userdata 应用笔记
Feb 14, 2022 --- · 2 min read · AWS EC2 userdata PowerShell ·
Share on:
因为平常主要是使用 EC2 的 Linux 实例，所以之前写过的一篇关于 UserData 的日志创建 AWS EC2 实例时 userdata 的一些知识默认就是讲的有关 Linux 实例的 UserData。本文补充上 Windows 的 EC2 实例 UserData 的基本使用，参考自 AWS 官方文档 Run commands on your Windows instance at launch。

Windows 的 UserData 被谁执行，依据所选择 AMI 的不同有以下三种方式
1. EC2Launch v2: 最新方式，只是被当前预览版的 AMI 所支持，它支持 YAML 配置的脚本
2. EC2Launch: 当前方式，Windows Server 2016 及更新版
3. EC2Cofnig: 旧有方式， Windows Sever 2012 R2 及旧版本
Read More
配置 AWS Lambda Python Logging
Jan 25, 2022 --- · 4 min read · lambda AWS logging ·
Share on:
通常在 Python 应用中简单的配置使用内置的 logging 是这样的
1import logging 2 3logging_format = '%(asctime)s - %(levelname)s - %(module)s(%(funcName)s:%(lineno)d) - %(message)s' 4logging.basicConfig(level=logging.INFO, format=logging_format) 5 6logging.info('hello world')
假如文件名为 test.py, 用 python test.py 执行后输出
2022-01-25 21:02:47,231 - INFO - test(<module>:6) - hello world
在 Lambda 中的现象
可是这同样的代码放到 AWS Lambda Python 代码中却不灵验了，logging.info() 将得不到任何输出。 Read More
小心 Python 函数默认参数的陷阱
Jan 14, 2022 --- · 2 min read · Python ·
Share on:
Python 的函数参数支持默认值，这是本人一直喜欢的特性，Python 不支持方法重载，但默认参数可起到类似的效果，还不用写多个函数。现在支持默认参数的语言普遍的，像 C++, C#, Ruby, Groovy, PHP, Scala, JavaScript 等，Java 还不行。

但是特别要小心，Python 的函数默认值与其他的语言是不同的，直接违反了最直观的常识 -- 默认参数应该是省略就每次用同样的默认值，传的话就用传入的值。

当我在 IntelliJ IDEA 中写类似如下的代码
1def foo(a, b=[]): 2 b.append(1) 3 return b
我的 SonarLint 插件就要抱怨了说是
SonarLint: Change this default value to "None" and initialize this parameter inside the function/method
Default argument value is mutable
Read More
应用 Axis 1.4 开发 WebService
Nov 14, 2021 --- · 6 min read · SOAP soapenv ·
Share on:
Axis 1 的最后一个版本还是 2006-04-22 发布的 1.4 Final 版，当前的版本是 Axis 2，即于 2021-08-01 发布的 Axis v1.8.0 版本。想想在 2006 年 4 月份，软件开发是一种什么样的景象，JDK 5 于 2004-09-30 发布，同年 12 月 12 日 JDK 6 才出来, Spring 还是 1.x 的版本。那时候仍是 EJB 兴旺的年代，微服务概念的出现还有等好多年。

那为什么还要学习 Axis 1.4 呢？目的就是为了放弃，先前的 Axis 1.4 的项目不稍加理解，怎么能顺利的过度到 Axis 2 呢？要说眼下更好的用来开发 SOAP WebService 的库应该首选 Apache CXF。本来拟定的文章标题的 Springboot2 应用 Axis 1.4 开发 WebService, 但一发挥就用力过猛，只得下回另立新篇来再加上 Springboot2 了，因此本篇就是为 SpringBoot2 与 Axis 1 的结合铺路的。

什么是 SOAP，Simple Object Access Protocol, 简单对象访问协议，一种 XML-RPC 的实现。谁都敢号称简单，与当今的 REST API 一对照，任何人都会觉得 SOAP 是把一个远程调用搞得无比的复杂。SOAP 有 1.1 和 1.2 两个版本，现在提 SOAP 基本就是 SOAP 1.2 的代名词。另外，SOAP 1.2 开始也承认不简单，不再明确为 Simple Object Access Protocol 的缩写，而叫做 Messaging Framework (Second Edition)。 Read More
构建 AWS Lambda Python Docker 镜像
Nov 8, 2021 --- · 7 min read · lambda Docker AWS ·
Share on:
AWS 的 Lambda 在 2020-12-01 开始支持用 Docker 镜像存放代码，见 New for AWS Lambda - Container Image Support。AWS Lambda 最初的对发布包的限制是 50M, 解压后(因为执行前需要解压缩)不能超过 250M，对于压缩比小于 1/5 的包来说，要突破 50M 部署包的限制就要用 2018-11-29 推出的层(layer), 即把 Lambda 的依赖可以组织为层，每个 Lambda 可引用最多 5 个层，但最终 Lambda 加上层所解压后的大小仍然有 250 M 的限制。

对于使用了大量依赖的 Lambda，比如 Python 中用了 Pandas 之类的数学分析包，250M 的大小是不够的，所以才有了 Docker 镜像化的 Lambda, 镜像的大小限制一下蹦到 10G，要构建出一个 10G Lambda 用的 Linux 镜像, 那绝对是个巨兽，至少目前是超越我的想像力，除非往里面塞入大量的业务数据。关于 Lambda 有哪些限制，请参阅 Lambda quotas。

介绍完 Lambda 引入 Docker 镜像的背景后，本文接下来只关注如何构建一个 Python Lambda 镜像，对于如何部署 Docker 化的 Lambda, 不在本文的范围之内。主要的参考文档为 AWS Lambda 官方的 Deploy Python Lambda functions with container images. Read More
创建和发布自己的 Python 包到 PyPI 上
Oct 27, 2021 --- · 6 min read · Python wheel PyPI ·
Share on:
像 Java 可发布包到 Maven 仓库，NodeJS 发布包到 NPM 一样，我们也可以创建自己的 Python 包并发布到 PyPI 仓库中去。或者内部使用的包，只须发布到私有的 Nexus 服务器上。
本文中的例子将创建一个 Python 包 bounded-executor, 并发布到 PyPI 上。为什么创建这个包呢？原因是直接用 Python 的 ThreadPoolExecutor 或 ProcessPoolExecutor 来提交任务的话，任务的等待队列是没有边界的，这就会造成因提交任务过快而使得内存爆满。本包最为合适的名称应该是 bounded-pool-executor, 可是名字已被他人使用，但此外的实现有所不同，ThreadPoolExecutor 用 Queue(maxsize) 来控制，而 ProcessPoolExceutor 用 BoundedSemaphore 来控制。
我们以经典的 Python 工程目录结构为例，构建的核心是执行 setup.py 中的 setup 函数，由此来理解 setup 的最主要配置与关键命令做了些什么。这样有助于我们理解其他的 Python 包管理工具的底层行为，从中我们可以对比 poetry 的 build, install, 和 publish 命令。 Read More
理解 Docker Client/Server 架构, 找寻 Docker Desktop 替代品
Oct 21, 2021 --- · 10 min read · Docker Vagrant ·
Share on:
本文继上篇摆脱 Docker Desktop 即将到来的收费进一步寻找符合自己需求的 Docker Desktop 替代品，前面试用过 hyperkit + minikube, Podman, 最终还是确定了用 docker-machine。之所以选择了它是基于下面几个需求：
1. 连接 VPN 后 Docker 还要能继续工作 (通过 socket 文件和 localhost 与 Docker Host 通信不惧怕 VPN 连接. 因为 VPN 会接管路由表，所以用 IP 来连接 Docker Host 的话，VPN 连上后将可能无法访问 Docker Host)
2. 能与 IDE 进行集成开发与调试 (IntelliJ IDEA 能与 Docker Desktop, Docker Machine, TCP socket 和 SSH 上的 Docker Host 集成调试，但无法与 Daemonless 的 Podman 集成)
3. DOCKER_HOST 能是远程机器 (由于 Podman 设计为 Daemonless，也就没有 Docker Host, 无法进行远程构建)
本文力图更深入的理解 Docker 的架构来解释最后选择的来由，清楚了原理后可以自主创建一个 Docker Host，连 docker-machine 也可以不用。比如创建一个 AWS EC2 实例作为 Docker Host, 然后在本地执行 docker 命令进行镜像的构建与容器的运行，这时候镜像构建过程与容器执行的环境是在 EC2 上，再也不用先把本地的文件上传(scp 或 rsync) 到 EC2 上，然后 ssh 到 EC2 去执行 docker 命令了。
一个小插曲：本人曾经随手在 ～/Downloads 目录下建立一个只有 FROM busybox 一行的 Dockerfile 文件，然后运行 docker build ... 命令，结果每次都提示磁盘空间不足，本机磁盘还非常宽裕，Docker Machine 也分配了 20 G 内存，怎么会不够了呢？登入到 Docker Machine 后 df 确实没空间了。四处找原因，原来是 docker build ... 一执行，不管 3721 首先把当前目录下的所有文件全部拷贝到 Docker Machine 中去，~/Downloads 目录中下了几十个 G 的内容，所以把 Docker Machine 给挤暴掉。解决办法就是要把 Dockerfile 放到一个没有无用文件的独立目录中去，这也是为什么 Dockerfile 中的 COPY 命令只能从当前目录中拷贝文件的原因。 Read More
- 3
- 4
- 5
- 6
- 7

在 Lambda 中的现象