集成学习(Ensemble Learning)有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。
Antlr4应用初探
Spark多Job并发执行
在使用spark处理数据的时候,大多数都是提交一个job执行,然后job内部会根据具体的任务,生成task任务,运行在多个进程中,比如读取的HDFS文件的数据,spark会加载所有的数据,然后根据block个数生成task数目,多个task运行中不同的进程中,是并行的,如果在同一个进程中一个JVM里面有多个task,那么多个task也可以并行,这是常见的使用方式。
Spark Code Segment
在使用Spark过程中的代码片段
Metric Trees
Metric tree in an indexing structure that allows for efficient KNN search1
Metric tree organizes a set of points hierarchically
- It’s a binary tree: nodes = sets of points, root = all points
- sets across siblings (nodes on the same level) are all disjoint
- at each internal node all points are partitioned into 2 disjoint sets
【牛人博客之】DBScan
基于密度的方法(Density-based methods)
基本思想
基于密度的方法:k-means解决不了不规则形状的聚类。于是就有了Density-based methods来系统解决这个问题。该方法同时也对噪声数据的处理比较好。其原理简单说画圈儿,其中要定义两个参数,一个是圈儿的最大半径,一个是一个圈儿里最少应容纳几个点。只要邻近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类,最后在一个圈里的,就是一个类各种聚类算法。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)dbscan论文就是其中的典型.
42,一个神奇的数字
无处不在…不知道你在学习视频或者钻研大佬写的代码的时候是否注意到一个普遍的现象:很多时候大佬们都喜欢用数字“42”作为随机数的种子。例如下面这个DataCamp的课程: “42”不仅受到程序员的欢迎,而且更加生气的是当你在Google中输入: the answer to life the univ ...