Mophei's blog

PySpark on Yarn的相关依赖解决方式

发表于 2020-05-11 | 更新于 2020-05-12 | 分类于 Spark | 评论数： | 阅读次数：

背景Spark on Yarn是将yarn作为Cluster Manager的运行模型，Spark将资源（container）的管理与协调统一交给yarn去处理。 Spark on Yarn分为client、cluster两种模式： client模式：Spark程序的Driver/SparkCon ...

阅读全文 »

分类场景下的类别不平衡问题

发表于 2019-03-08 | 更新于 2019-08-18 | 分类于机器学习 | 评论数： | 阅读次数：

https://zhuanlan.zhihu.com/p/32940093

https://blog.csdn.net/heyongluoyao8/article/details/49408131

机器学习中常常会遇到数据的类别不平衡（class imbalance），有时也叫数据类别偏斜（class skew）。以常见的二分类问题为例，我们希望预测信用卡用户是否存在欺诈行为。但在历史数据中，存在欺诈行为的比例可能很低（比如0.1%）。在这种情况下，学习出好的分类器是很难，而且在得到的结论往往也很具有迷惑性。比如在诈骗行为预测中，如果我们的分类器总是预测一个用户不存在诈骗行为，即预测为反例，那么我们依然有高达99.9%的预测准确率。然而这种结论是没有意义的。那么，在类别不平衡的情况下如何有效的评估分类器呢？这就是我们首先需要研究的问题。

阅读全文 »

数据挖掘中常见的「异常检测」算法

发表于 2019-03-08 | 更新于 2019-08-18 | 分类于机器学习 | 评论数： | 阅读次数：

转自知乎问答数据挖掘中常见的「异常检测」算法有哪些？

一般情况下，可以把异常检测看成是数据不平衡下的分类问题。因此，如果数据条件允许，优先使用有监督的异常检测[6]。实验结果[4]发现直接用XGBoost进行有监督异常检测往往也能得到不错的结果，没有思路时不妨一试。

阅读全文 »

【西瓜书训练营】06_支撑向量机

发表于 2019-04-09 | 更新于 2019-04-20 | 分类于机器学习 | 评论数： | 阅读次数：

对SVM整体上的认识SVM有三宝：间隔、对偶、核技巧 SVM模型的分类模型的核心思想模型用途 hard-margin svm 线性可分支持向量机 soft-margin svm 线性支持向量机 kernel svm 非线性支持向量机 svm几何上的原理能够进行 ...

阅读全文 »

优化问题中的KKT条件

发表于 2019-04-14 | 更新于 2019-04-20 | 分类于机器学习 | 评论数： | 阅读次数：

最优化，是应用数学的一个分支。最优化问题简单讲就是1：构造一个合适的目标函数，使得这个目标函数取到极值的解就是你所要求的东西；找到一个能让这个目标函数取到极值的解的方法初识最优化问题主要研究以下形式的问题：给定一个函数$f: A \rightarrow \mathbb{R}$， ...

阅读全文 »

机器学习中的凸优化问题

发表于 2019-04-20 | 分类于机器学习 | 评论数： | 阅读次数：

凸优化（convex optimization）是最优化问题中非常重要的一类，也是被研究的很透彻的一类。对于机器学习来说，如果要优化的问题被证明是凸优化问题，则说明此问题可以被比较好的解决。线性回归线性回归是最简单的有监督学习算法，它拟合的目标函数是一个线性函数。假设有$N$个训练样本$(x_i, ...

阅读全文 »

优化问题综述

发表于 2019-04-11 | 更新于 2019-04-14 | 分类于机器学习 | 评论数： | 阅读次数：

本篇参考优化问题综述来源优化问题分类优化问题一般可以分为两大类：无约束优化问题和约束优化问题。约束优化问题又可分为含等式约束优化和含不等式约束优化无约束优化问题含等式约束的优化问题含不等式约束的优化问题求解策略针对以上三种情形，各有不同的处理策略：无约束的优化问题：可直接对其求导，并 ...

阅读全文 »

【西瓜书训练营】03_决策树

发表于 2019-04-01 | 更新于 2019-04-05 | 分类于机器学习 | 评论数： | 阅读次数：

决策树的直观认知：一般的，一棵树包括根结点、内部结点和叶子结点。叶结点对应于决策树结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集。决策树的生成是一个递归过程。在一次迭代中，生成树核心规则为：从属性集合中选择最优划分属性，然后根据 ...

阅读全文 »

【西瓜书训练营】02_线性模型

发表于 2019-03-26 | 更新于 2019-04-01 | 分类于机器学习 | 评论数： | 阅读次数：

线性模型的理论推导线性模型即 f(x) = \omega_1 x_1 + \omega_2 x_2 + ... +\omega_d x_d +d线性回归线性模型中，我们试图学得 f(\mathbf{x_i}) = \mathbf{\omega^T x_i} + b_i,\ 使得f(\mathbf ...

阅读全文 »

参数估计-极大似然估计、极大后验估计、贝叶斯估计

发表于 2019-03-28 | 更新于 2019-03-29 | 分类于机器学习 | 评论数： | 阅读次数：

首先来看下这些问题：机器学习中的有参建模，会面临参数估计的问题，最后一般都会变成一个目标函数的优化问题（可以带或者不带约束条件），那么这个目标函数都是怎么来的？比如，交叉熵损失函数怎么来的？在逻辑回归中，它的目标函数是怎么来的？在回答这个问题之前，我们先回顾下极大似然估计、极大后验估计、贝叶 ...

阅读全文 »