在机器学习的算法评估中,尤其是分类算法评估中,我们经常听到精确率(precision)与召回率(recall),RoC曲线与PR曲线这些概念,那这些概念到底有什么用处呢?
68-95-99.7法则和均方根误差
回归问题的典型指标是均方根误差(RMSE)。均方根误差测量的是系统预测误差的标准差。例如,RMSE 等于 50000,意味着,68% 的系统预测值位于实际值的 50000 美元以内,95% 的预测值位于实际值的 100000 美元以内(一个特征通常都符合高斯分布,即满足 “68-95-99.7”规则:大约68%的值落在 1σ 内,95% 的值落在 2σ 内,99.7%的值落在 3σ 内,这里的 σ 等于50000)
【读书笔记之】朴素贝叶斯法
朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入\输出的联合概率分布;然后基于此模型,对给定的输入$x$ ,利用贝叶斯定理求出后验概率最大的输出$y$。
【牛人博客之】最小二乘法
最小二乘法是用来做函数拟合或者求函数极值的方法。在机器学习,尤其是回归模型中,经常可以看到最小二乘法的身影。
IntelliJ IDEA远程调试Spark应用程序
使用IDEA调试spark应用程序,是指使用spark算子编写的driver application。
在开始之前,先介绍下如何使用idea远程debug普通的jar应用。远程debug spark原理是一样的。
【读书摘要】集成学习
An overview of ensemble methods in machine learning 为了得到泛化性能强的集成,集成中的个体学习器应尽可能相互独立。尽管“独立”在现实任务中无法做到,但可以设法使得基学习器尽可能有较大的差异。事实上,个体学习器的“准确性”和“多样性”本身就存在冲突 ...
每日一问
温习数据科学(DS)和商务分析(BA)领域常见的问题,希望我们一起思考。欢迎在评论区解答或讨论!
【牛人博客之】交叉验证(Cross Validation)
交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集合测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。