Mophei's blog

集成学习之Bagging和Boosting

发表于 2018-10-16 | 更新于 2019-03-23 | 分类于机器学习 | 评论数： | 阅读次数：

集成学习(Ensemble Learning)有两个流派，一个是boosting派系，它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派，它的特点是各个弱学习器之间没有依赖关系，可以并行拟合。

排序、组合、阶乘

发表于 2019-03-15 | 更新于 2019-03-23 | 分类于基础数学 | 评论数： | 阅读次数：

排列的问题：从n个不同元素中，拿出m个来进行排列，一共有多少种排列方法？ $A_n^m = {\frac {n!}{(n-m)!}}$ A就是Arrangement的缩写。组合的问题：从n个不同元素中，拿出m个来进行组合，一共有多少种组合方法？ $C_n^m =\frac{A_n^m}{m!} ...

阅读全文 »

Antlr4应用初探

发表于 2019-03-08 | 更新于 2019-03-23 | 评论数： | 阅读次数：

1. Antlr4是什么？

当我们实现一种语言时，我们需要构建读取句子（sentence）的应用，并对输入中的元素做出反应。如果应用计算或执行句子，我们就叫它解释器（interpreter），包括计算器、配置文件读取器、Python解释器都属于解释器。如果我们将句子转换成另一种语言，我们就叫它翻译器（translator），像Java到C#的翻译器

阅读全文 »

Spark性能优化

发表于 2018-10-13 | 更新于 2019-03-23 | 分类于 Spark | 评论数： | 阅读次数：

在使用Spark的过程中，我们通常会受限于集群的资源（比如内存、磁盘或者CPU）。为了追求更好的性能，更简洁的Spark代码，可以从以下几个方面进行实践和优化：

充分利用钨丝计划（Tungsten）
分析执行计划
数据管理（比如持久化、广播）
云相关的优化

阅读全文 »

Spark多Job并发执行

发表于 2018-09-25 | 更新于 2019-03-23 | 分类于 Spark | 评论数： | 阅读次数：

在使用spark处理数据的时候，大多数都是提交一个job执行，然后job内部会根据具体的任务，生成task任务，运行在多个进程中，比如读取的HDFS文件的数据，spark会加载所有的数据，然后根据block个数生成task数目，多个task运行中不同的进程中，是并行的，如果在同一个进程中一个JVM里面有多个task，那么多个task也可以并行，这是常见的使用方式。

阅读全文 »

Spark Code Segment

发表于 2018-10-29 | 更新于 2019-03-23 | 分类于 Spark | 评论数： | 阅读次数：

在使用Spark过程中的代码片段

阅读全文 »

Metric Trees

发表于 2018-10-11 | 更新于 2019-03-23 | 分类于算法 | 评论数： | 阅读次数：

Metric tree in an indexing structure that allows for efficient KNN search¹

Metric tree organizes a set of points hierarchically

It’s a binary tree: nodes = sets of points, root = all points
sets across siblings (nodes on the same level) are all disjoint
at each internal node all points are partitioned into 2 disjoint sets

阅读全文 »

【牛人博客之】DBScan

发表于 2018-09-23 | 更新于 2019-03-23 | 分类于机器学习 | 评论数： | 阅读次数：

基于密度的方法(Density-based methods)

基本思想

基于密度的方法：k-means解决不了不规则形状的聚类。于是就有了Density-based methods来系统解决这个问题。该方法同时也对噪声数据的处理比较好。其原理简单说画圈儿，其中要定义两个参数，一个是圈儿的最大半径，一个是一个圈儿里最少应容纳几个点。只要邻近区域的密度（对象或数据点的数目）超过某个阈值，就继续聚类,最后在一个圈里的，就是一个类^{各种聚类算法}。DBSCAN（Density-Based Spatial Clustering of Applications with Noise）^dbscan论文就是其中的典型.

阅读全文 »

42，一个神奇的数字

发表于 2019-03-08 | 更新于 2019-03-23 | 评论数： | 阅读次数：

无处不在…不知道你在学习视频或者钻研大佬写的代码的时候是否注意到一个普遍的现象：很多时候大佬们都喜欢用数字“42”作为随机数的种子。例如下面这个DataCamp的课程： “42”不仅受到程序员的欢迎，而且更加生气的是当你在Google中输入： the answer to life the univ ...

阅读全文 »