Mophei's blog

  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 热门

  • 搜索

PySpark on Yarn的相关依赖解决方式

发表于 2020-05-11 | 更新于 2020-05-12 | 分类于 Spark | 评论数: | 阅读次数:
背景Spark on Yarn是将yarn作为Cluster Manager的运行模型,Spark将资源(container)的管理与协调统一交给yarn去处理。 Spark on Yarn分为client、cluster两种模式: client模式:Spark程序的Driver/SparkCon ...
阅读全文 »

分类场景下的类别不平衡问题

发表于 2019-03-08 | 更新于 2019-08-18 | 分类于 机器学习 | 评论数: | 阅读次数:

https://zhuanlan.zhihu.com/p/32940093

https://blog.csdn.net/heyongluoyao8/article/details/49408131

机器学习中常常会遇到数据的类别不平衡(class imbalance),有时也叫数据类别偏斜(class skew)。以常见的二分类问题为例,我们希望预测信用卡用户是否存在欺诈行为。但在历史数据中,存在欺诈行为的比例可能很低(比如0.1%)。在这种情况下,学习出好的分类器是很难,而且在得到的结论往往也很具有迷惑性。比如在诈骗行为预测中,如果我们的分类器总是预测一个用户不存在诈骗行为,即预测为反例,那么我们依然有高达99.9%的预测准确率。然而这种结论是没有意义的。那么,在类别不平衡的情况下如何有效的评估分类器呢?这就是我们首先需要研究的问题。

阅读全文 »

数据挖掘中常见的「异常检测」算法

发表于 2019-03-08 | 更新于 2019-08-18 | 分类于 机器学习 | 评论数: | 阅读次数:

转自知乎问答数据挖掘中常见的「异常检测」算法有哪些?

一般情况下,可以把异常检测看成是数据不平衡下的分类问题。因此,如果数据条件允许,优先使用有监督的异常检测[6]。实验结果[4]发现直接用XGBoost进行有监督异常检测往往也能得到不错的结果,没有思路时不妨一试。

阅读全文 »

【西瓜书训练营】06_支撑向量机

发表于 2019-04-09 | 更新于 2019-04-20 | 分类于 机器学习 | 评论数: | 阅读次数:
对SVM整体上的认识SVM有三宝:间隔、对偶、核技巧 SVM模型的分类 模型的核心思想 模型用途 hard-margin svm 线性可分支持向量机 soft-margin svm 线性支持向量机 kernel svm 非线性支持向量机 svm几何上的原理 能够进行 ...
阅读全文 »

优化问题中的KKT条件

发表于 2019-04-14 | 更新于 2019-04-20 | 分类于 机器学习 | 评论数: | 阅读次数:
最优化,是应用数学的一个分支。最优化问题简单讲就是1: 构造一个合适的目标函数,使得这个目标函数取到极值的解就是你所要求的东西; 找到一个能让这个目标函数取到极值的解的方法 初识最优化问题主要研究以下形式的问题: ​ 给定一个函数$f: A \rightarrow \mathbb{R}$, ...
阅读全文 »

机器学习中的凸优化问题

发表于 2019-04-20 | 分类于 机器学习 | 评论数: | 阅读次数:
凸优化(convex optimization)是最优化问题中非常重要的一类,也是被研究的很透彻的一类。对于机器学习来说,如果要优化的问题被证明是凸优化问题,则说明此问题可以被比较好的解决。 线性回归线性回归是最简单的有监督学习算法,它拟合的目标函数是一个线性函数。假设有$N$个训练样本$(x_i, ...
阅读全文 »

优化问题综述

发表于 2019-04-11 | 更新于 2019-04-14 | 分类于 机器学习 | 评论数: | 阅读次数:
本篇参考优化问题综述来源 优化问题分类优化问题一般可以分为两大类:无约束优化问题和约束优化问题。约束优化问题又可分为含等式约束优化和含不等式约束优化 无约束优化问题 含等式约束的优化问题 含不等式约束的优化问题 求解策略针对以上三种情形,各有不同的处理策略: 无约束的优化问题:可直接对其求导,并 ...
阅读全文 »

【西瓜书训练营】03_决策树

发表于 2019-04-01 | 更新于 2019-04-05 | 分类于 机器学习 | 评论数: | 阅读次数:
决策树的直观认知:一般的,一棵树包括根结点、内部结点和叶子结点。叶结点对应于决策树结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。 决策树的生成是一个递归过程。在一次迭代中,生成树核心规则为:从属性集合中选择最优划分属性,然后根据 ...
阅读全文 »

【西瓜书训练营】02_线性模型

发表于 2019-03-26 | 更新于 2019-04-01 | 分类于 机器学习 | 评论数: | 阅读次数:
线性模型的理论推导线性模型即 f(x) = \omega_1 x_1 + \omega_2 x_2 + ... +\omega_d x_d +d线性回归线性模型中,我们试图学得 f(\mathbf{x_i}) = \mathbf{\omega^T x_i} + b_i,\ 使得f(\mathbf ...
阅读全文 »

参数估计-极大似然估计、极大后验估计、贝叶斯估计

发表于 2019-03-28 | 更新于 2019-03-29 | 分类于 机器学习 | 评论数: | 阅读次数:
首先来看下这些问题: 机器学习中的有参建模,会面临参数估计的问题,最后一般都会变成一个目标函数的优化问题(可以带或者不带约束条件),那么这个目标函数都是怎么来的?比如,交叉熵损失函数怎么来的?在逻辑回归中,它的目标函数是怎么来的? 在回答这个问题之前,我们先回顾下极大似然估计、极大后验估计、贝叶 ...
阅读全文 »
12…4
Mophei

Mophei

39 日志
7 分类
12 标签
GitHub
© 2020 Mophei