collection | 隔叶黄莺 Yanbin Blog - 软件编程实践

使用 Java 转换 Apache Avro 为 Parquet 数据格式(依赖更新)

2021-02-25 | 阅读(871)

在上篇使用 Java 转换 Apache Avro 为 Parquet 数据格式实现把 Avro 数据转换为 Parquet 文件或内存字节数组，并支持 LogicalType。其中使用到了 hadoop-core 依赖，注意到它传递的依赖都非常老旧，到官方 Maven 仓库一看才发现还不是一般的老

长时间无人问津的项目，那一定有它的替代品。对啦，据说 hadoop-core 在 2009 年 7 月份更名为 hadoop-common 了，没找到官方说明，只看到 StackOverflow 的 Differences between Hadoop-coomon, Hadoop-core and Hadoop-client? 是这么说的。应该是这么个说法，不然为何 hadoop-core 一直停留在 1.2.1 的版本，而且原来 hadoop-core 中的类在 hadoop-common 中可以找到，如类 org.apache.hadoop.fs.Path。不过在 hadoop-core-1.2.1 中的 fs/s3 包不见，这么重要的 s3 文件系统没了。阅读全文 >>

使用 Java 转换 Apache Avro 为 Parquet 数据格式

2021-02-23 | 阅读(3,314)

Avro 和 Parquet 是处理数据时常用的两种编码格式，它们同为 Hadoop 大家庭中的成员。这两种格式都是自我描述的，即在数据文件中带有 Schema。Avro 广泛的应用于数据的序列化，如 Kafka，它是基于行的格式，可被流式处理，而 Parquet 是列式存储格式的，适合于基于列的查询，不能用于流式处理。

既然是一个系统中可能同时用到了这两种数据存储格式，那么就可能有它们之间相互转换的需求。本文探索如何从 Avro 转换为 Parquet 格式数据，以 Java 语言为例，所涉及到的话题有

转换 Avro 数据为 Parquet 文件
如何支持 Avro 的 LogicalType 类型到 Parquet 的转换, 以 date 类型为例
实现转换 Avro 数据为 Parquet 字节数组(内存中完成 Avro 到 Parquet 的转换)

本文例子中所选择 Avro 版本是当前最新的 1.10.1 阅读全文 >>

Python 3.7 所带来的新特性

2020-07-24 | 阅读(782)

Python 接触的晚，所以接着体验一下 Python 3.8 带来的主要新特性继续往前翻，体验一下 Python 3.7 曾经引入的新特性，爱一门语言就要了解她真正的历史。一步一步慢慢给 Python 来个起底。

先来看看 Python 网站的各版本使用情况 Usage statistics of Python Version 3 for websites, 这里统计的 Python 开发的网站的数据，应该有 Python 3 大规模的用于其他领域。单网站应用 Python 来说，Python 2 还有大量遗留代码，Python 3 还是 3.6 为主，Python 的升级还任重道远。本人也是谨慎的在从 3.7 迁移到 3.8 的过程中，AWS 的 Lambda 都支持 3.8，直接上 3.8 也没什么历史负担。以下是从网站使用 Python 统计情况中的两个截图

Python 3.7.0 发布于 2018-06-27, 这篇文章 Cool New Features in Python 3.7 详细介绍了 Python 3.7 的新特性，本文也是从其中挑几个来体验体验。阅读全文 >>

Python 列表的排序 - sort/sorted

2020-06-21 | 阅读(586)

Python 集合的遍历,推导及 filter/map/reduce 操作中讲了对集合的 filter, map 和 reduce 操作，那还有 sort 排序呢？像 Java 一样，Python 也提供了 sort() 和 sorted() 方法。

sort() 是 list 的实例方法， sorted() 是一个内置函数。Python 中也是只有 list 才有顺序。

list.sort() 方法

查看 Python 3 中的 list.sort() 方法(help(list.sort))

Help on method_descriptor:

sort(self, /, *, key=None, reverse=False)
Stable sort *IN PLACE*.

Python 的 list.sort() 方法和 Java List.sort() 方法一样的，都是 IN PLACE 排序，没有返回值。实际看下各种排序场景阅读全文 >>

Java 9 - 快速创建不可变集合

2018-06-06 | 阅读(1,053)

平台之所以谓之平台，以其能建立一个生态，并与之外围达成共赢。霸道点的平台也会反噬外围生态，像微软集成浏览器，媒体播放器。还有即将的 iOS 12 要把应用商店多是收费的 AR 皮尺放到它自己系统中来，走别人的路，让别人无路可走。从此众泰皮尺部的唯一的生产工具就会是人手一部能安装 iOS 12 iPhone 了。

JDK 也不例外，Java 8 之前日期库的话 Joda-Time 是首要之选，Java 8 集成后应该是鲜有人问津。以往说到集合操作库，有两个选择，其一为 Apache Commons Collections，二为 Google 的 Guava，当然前者与后者竞争中也早已败下阵来，况且前者还受到 Java 8 的夹击。而本文要说的可以说是 Java 9 把 Guava 中创建不可变集合的方式据为已用了，直截了当的说，凡是 Java 9 后有创建不可变集合的需求，只要用三大接口 List， Set，Map 中的 of(...) 方法就对了。

Java 9 之前，当我们需要集合相关的操作，两个选择：

Apache Commons Collections 的几个类 ListUtils, SetUtils, MapUtils, 和 CollectionsUtils。比如它们提供的以下几些个工具方法

ListUtils.unmodifiableList<List<? extends E> list) //创建不可变 List
SetUtils.emptySet() //不可变的空 Set
SetUtils.unmodifiableSet(Set<? extends E> set) //创建不可变 Set
MapUtils.unmodifiableMap(Map<? extends K, ? extends V> map) //创建不可变 Map
CollectionUtils.unmodifiableCollection(Collection<? extends C> collection) //创建不可变集合
Guava 的几个类 ImmutableList, ImmutableSet, 和 ImmutableMap。而它们创建不可变集合的方式就是通过各自的 of(...) 方法，以 ImmutableList 为例(其余两个类也类似)，它有

of(): ImmutableList<E>
of(E element): ImmutableList<E>
of(E e1, E e2): ImmutableList<E>
of(E e1, E e2, E e3): ImmutableList<E>
......
of(E e1, E e2, E e3, E e4, E e5, E e6, E e7, E e8, E e9, E e10, E e11, E e12, E... others): ImmutableList<E>

阅读全文 >>

并发(Concurrent) 与并行(Parallel) 的区别

2018-02-09 | 阅读(7,315)

刚开始阅读《Akka IN ACTION》这本书，刚开始是对 Revolution 这个词翻译成中文是革命 感到诧异，因为革命 通俗来讲就是 杀人 的意思。至于 Revolution 英文解释不深究了，只是感叹何以颠覆性的变化就一定要杀人吗？

也由此引出了编程中经常面对的 Concurrent(名词为：Concurrency) 和 Parallel(名词为：Parallelism) 这两个词，基本上是认为它们是同一个意思。其实不然，下面慢慢道来。

如果从英文字典对它们的解释也没有多大区别，差不多都是说同是发生，但字面上 Parallel 多了一个平行的意思。所以在中文上，在计算机领域我们约定的翻译是

Concurrent(Concurrency) -- 并发
Parallel(Parallelism) -- 并行

比如在多线程环境中它们的区别具体体现在：

并发：多个任务在同一个 CPU 核上按细分的时间片轮流(交替)执行，从逻辑上来看那些任务是同时执行。针对 CPU 内核来说，任务仍然是按细粒度的串行执行。也难怪在 Java 5 中新加的并发 API 的包名是 java.uti.concurrent。阅读全文 >>

Java 8 根据属性值对列表去重

2018-02-06 | 阅读(5,363)

对列表的去重处理，Java 8 在 Stream 接口上提供了类似于 SQL 语句那样的 distinct() 方法，不过它也只能基于对象整体比较来去重，即通过 equals/hashCode 方法。distinct 方法的功效与以往的 new ArrayList(new HashSet(books)) 差不多。用起来是

List<Book> unique = book.stream().distinct().collect(Collectors.toList())

并且这种去重方式需要在模型类中同时实现 equals 和 hashCode 方法。

回到实际项目中来，我们很多时候的需求是要根据对象的某个属性来去重。比如接下来的一个实例，一个 books 列表中存在 ID 一样，name 却不同的 book, 我们认为这是重复的，所以需要根据 book 的 id 属性对行去重。在 collect 的时候用到的方法是 collectinAndThen(...), 下面是简单代码: 阅读全文 >>

JMockit 中被 Mocked 的对象属性及方法的默认值

2017-11-12 | 阅读(806)

前脚研究完 Mockito 中被 Mocked 的对象属性及方法的默认值, 虽然目今更多的是拥抱着 Mockito, 但总有时对 JMockit 也会挤眉弄眼，谁叫 JMockit 无所不能呢！被 Mockito 的 Mock 对象方法的默认返回值洗脑之后，进而觉察出 JMockit 应该有同样的实现方式。

经过类似的测试，这里不详细列出测试过程，只是在基于前篇的测试中加入 JMockit 的依赖，最新版是 1.36。测试类 MyClassTest 中使用

@Mocked
private MyClass myClass;

1 2	@Mocked private MyClass myClass;

来构造 MyClass 的 mock 对象 myClass, 其余代码是一样的。相关代码请前往上篇 Mockito 中被 Mocked 的对象属性及方法的默认值中找。使用 JMockit 后跑出来的效果如下：阅读全文 >>

Mockito 中被 Mocked 的对象属性及方法的默认值

2017-11-12 | 阅读(2,953)

在 Java 测试中使用 Mockito 有段时日了，以前只是想当然的认为 Mock 的对象属性值和方法返回值都是依据同样的规则。基本类型是 0, 0.0, 或 false, 对象类型都是 null, Mock 对象的默认返回值也应该是一样的。直到最近有一天，有一个返回 Optional<String> 类型的方法，由于忘记对该方法打桩，意外的发现它返回的不是 null, 而 Optional.empty(), 因此才意识到此处定有蹊跷。着实有必要用代码验证一下 Mockito 是怎么决定属性及方法的各种返回类型的默认值的。

此次测试所用的 Mockito 版本是 mockito-core-2.12.0.

于是创建了下面一个类 MyClass 用于生成 Mock 对象，选取了一些典型的数据类型, 包括 int, Double, String, long[], Optional<String>, Collection<String>, Map<String, String>, 同时测试 Mock 对象默认的属性值与方法默认返回值。阅读全文 >>

学习并体验 JUnit 5 新特性

2017-09-25 | 阅读(1,212)

上一篇 JUnit 5 快速上手(从 JUnit 4 到 JUnit 5) 介绍了如何在一个项目中同时使用 JUnit 4 和 JUnit 5。现在来开始了解 JUnit 5 的新特性. 我们现在的项目基本是用 Maven 来管理依赖，在 Maven 项目中如何引入 JUnit 5 可以参考官方例子 junit5-maven-consumer. 我们知道 JUnit 5 包括三个模块，不用 JUnit 4 的话只要 Platform 和 Jupiter, 而 Jupiter Maven 模块本身依赖于 JUnit Platform, 因此应用 JUnit 5 的项目 Maven 配置就是

<dependency>
    <groupId>org.junit.jupiter</groupId>
    <artifactId>junit-jupiter-engine</artifactId>
    <version>5.0.0</version>
    <scope>test</scope>
</dependency>

<groupId>org.junit.jupiter</groupId>

<artifactId>junit-jupiter-engine</artifactId>

</dependency>

这样在当前的 IntelliJ IDEA(2017.2.4) 可以执行 JUnit 5 的测试用例。但要让 Maven 找到 JUnit 5 的测试用例，还得在 pom.xml 中加上阅读全文 >>

CTO on 让 Putty 保存密码，自动登陆的三种方法用了-load 载入对应的session就不要-ssh来连服务器了,不然seesion里面存的东西都没用,后面带-l 和-pw配用户名与密码...
天天下载 on Python 3.12 新特性很棒的网站，感谢分享
gidroizolyaciya cena_gwsl on Java, Python 两种形式的 base64encodeгидроизоляция цена http://gidroizolyaciya-cena-1.ru/ .
PKSpin Game on 精彩开发网站链接PKSpin Game is a free Android gaming application and is free to u...
Polo on 想选一种动态语言＋跨平台界面组件的组合，希望大家给点意见Perl + Tkx