blog | 逍遥郡


  • Home

  • Archives

  • Tags

  • Search

假设检验

Posted on 2013-04-15 |
卡方检验 类别资料的分析上,常用卡方检验(Chi-square test)。 卡方检验的原理:检验观察到的次数分布是否与期望的次数分布相复合。因此,检验结果只有“是”与“否”两种情况,所以卡方检验一般都视为单尾的检验。 离散随机变量属于各类别的期望次数是:$E_i=np_i$, 其中,n为样本数,$p_i$是属于第i类的概率。 直觉上,只要计算类别i的观察次数$O_i$与期望次数$E_i$的残差(residual),即可以衡量类别i的观察次数与期望次数的相符程度,残差值越大,则越不相符。于是就得到了卡方分布的公式: \[\chi^2 = \sum_{i=1}^k{(O_i-E_i)^2 \over E_i}, \qquad i=1,\cdots,k\] 【疑惑】这里参考了《生物统计学》10. 卡方分布,和之前学到卡方分布的定义有点偏差? 适合度检验(goodness of fit test) 利用样本检验母体分布是否为某一特定分布。 例如:掷骰子300次出现各点的次数分布,判断该骰子是否为公平骰子?($\alpha=0.01$) 点 ...
Read more »

《概率论与数理统计》陈希孺

Posted on 2013-04-12 |
前面的章节属于概率论,从第四章开始属于数理统计学(Statistics)。 概率论更偏纯数学,包括随机变量、概率、随机、方差、大数定理等,从三条公理出发,所有的定理都有严格证明推导; 而统计学更偏应用,包括参数估计、假设检验、方差分析、统计推断等。 统计学是这样一门学科: 它使用概率论和数学的方法,研究怎样收集(通过实验或观察)带有随机误差的数据,并在设定的模型(称作统计模型)之下,对这种数据进行分析(称作统计分析),以对所研究的问题作出推断(称作统计推断)。 统计学的两个重要问题: 参数估计,计算数据分布的参数值 假设检验 [TOC] 第四章 参数统计 4.1.1 总体 总体:与所研究问题有关的对象的全体构成的集合。 无限总体 (Fisher提出) 比如,某物体的真实重量α未知,要通过多次测量估计它。总体是一切可能的测量结果,此时即称为无限总体。该总体符合某某分布。 样本:按一定规定从总体里抽样出的一部分个体。 放回抽样 和 不放回抽样 在有限总体的情况下是有区别的,此时样本分布和总体分布可能会不一致,抽样方式也要作为一个要素放入统计模型; ...
Read more »

概率分布汇总

Posted on 2013-03-10 |
[TOC] 描述离散型随机变量的概率分布使用 分布列。即给出离散型随机变量的全部取值,及取每个值的概率,明显概率和为1。 常见的离散型随机变量的分布有单点分布、两点分布、二项分布、几何分布、负二项分布、超几何分布、泊松分布等。 描述连续型随机变量的概率分布使用 密度函数(PDF) 和 分布函数(CDF)。 常见的连续型随机变量的分布有:均匀分布,正态分布、柯西分布、对数正态分布、指数分布、Gamma分布、Beta分布、卡方分布、学生分布、F分布等等。 把分布函数的概念推广到随机向量的情形,得到联合分布函数、边缘分布函数、联合分布列、边缘分布列、联合密度函数和边缘密度函数等概念。 特征函数 傅里叶变换是数学分布中非常重要而有用的工具,将它应用于概率论,对分布函数作傅里叶-斯蒂尔杰斯变换,就得到特征函数。特征函数与分布函数相互唯一决定,因而可以把求分布函数的问题转化为求特征函数的问题。 离散分布 0-1分布 伯努利分布 即 0-1分布 是对单次抛硬币的建模。 $X\sim \text{Bernoulli}(p)$的PDF为 \(f(x)=p^x (1−p)^{1−x}\ ...
Read more »

概率论备忘

Posted on 2013-03-01 |
[TOC] $\newcommand{\x}{\mathrm{x}}\newcommand{\y}{\mathrm{y}}$ 概率密度函数(Probability density function) PDF一般只用来描述连续随机变量,描述离散变量使用分布列。 对于离散随机变量,PDF即在各点的概率值。如翻硬币,假如翻正面概率0.4,反面0.6,则这个模型的PDF就是{0.4, 0.6}。 【注意】PDF的X轴是随机变量X的取值范围,但Y轴可以超过1(与离散随机变量PDF不同,因为只要保证在X的值域上积分为1)。 http://stats.stackexchange.com/questions/4220/can-a-probability-distribution-value-exceeding-1-be-ok 例如,Gamma分布Beta(1/2,1/10) 在0和1取值为正无穷。 累积分布函数((Cumulative) distribution function) CDF表示随机变量小于或等于其某一个取值x的概率(之和)。 \[F_X(x) = P(X \leq x ...
Read more »

随机采样算法

Posted on 2013-02-28 |
[TOC] \[\newcommand{\x}{\boldsymbol{x}} \newcommand{\y}{\boldsymbol{y}}\] 统计学中,有时我们需要获得某一个分布的样本, 比如我们想获得 [0,1] 之间几个均匀随机数, 就可以说对 [0,1] 之间的均匀分布进行采样。 对于特定的分布, 有的我们可以从获得服从这个分布的样本, 比如一条街上每天交通事故的数量服从泊松分布, 我们把每天的数据收集起来,就可以得到服从这个分布的样本集。但有时直接采样有困难, 或者成本太高。所以,我们想办法用计算机来模拟采样。 独立样本 参考:http://bindog.github.io/blog/2015/05/20/different-method-to-generate-normal-distribution/ 拒绝采样(Rejection sampling) http://blog.csdn.net/bemachine/article/details/12584971 【注意】需要已知目标分布pdf。 使用场景是有些函数$p(x)$太复杂在程序中没法直接采样,那么 ...
Read more »

主题模型之LDA

Posted on 2013-02-23 |
$\newcommand{\X}{\mathcal{X}} \newcommand{\a}{\vec{\alpha}} \newcommand{\b}{\vec{\beta}} \newcommand{\p}{\vec{p}} \newcommand{\w}{\vec{w}} \newcommand{\x}{\vec{x}} \newcommand{\z}{\vec{z}} \newcommand{\vt}{\vec{\vartheta}} \newcommand{\vp}{\vec{\varphi}}$ [TOC] 在原始的pLSA模型中,我们求解出两个参数:“主题-词项”矩阵 $\Phi$ 和“文档-主题”矩阵 $\Theta$ ,但是我们并未考虑参数的先验知识;而LDA的改进之处,是对这俩参数之上分别增加了先验分布,相应参数称作超参数(hyperparamter)。概率图表示如下: 其中,单圆圈表示隐变量;双圆圈表示观察到的变量;把节点用方框(plate)圈起来,表示其中的节点有多种选择。所以这种表示方法也叫做plate notation,具体可参考PRML 8.0 ...
Read more »

主题模型之pLSA

Posted on 2013-02-15 |
我们了解到通过SVD可以进行LSA,把给定文档投影到语义空间,但语义的权重不好解释。pLSA是从概率分布的角度建模的一种方法,它假设在词和文档之间有一层主题隐语义,而主题符合多项分布,一个主题中的词项也符合多项分布,由这两层分布的模型,生成各种文档。 想象某个人要写 $N$ 篇文档,他需要确定每篇文档里每个位置上的词。假定他一共有 $K$ 个可选的主题,有 $V$ 个可选的词项,所以,他制作了 $K$ 个 $V$ 面的 “主题-词项” 骰子,每个骰子对应一个主题,骰子每一面对应要选择的词项。然后,每写一篇文档会再制作一颗 $K$ 面的 ”文档-主题“ 骰子;每写一个词,先扔该骰子选择主题;得到主题的结果后,使用和主题结果对应的那颗”主题-词项“骰子,扔该骰子选择要写的词。他不停的重复如上两个扔骰子步骤,最终完成了这篇文档。重复该方法 $N$ 次,则写完所有的文档。在这个过程中,我们并未关注词和词之间的出现顺序,所以pLSA也是一种词袋方法;并且我们使用两层概率分布对整个样本空间建模,所以pLSA也是一种混合模型。 具体来说,该模型假设一组共现(co-occurrence)词项关联着 ...
Read more »

一组延时数据

Posted on 2013-01-11 |
2010年Jeff Dean在一次演讲中给出了一份所有程序员都应该了解的数据。不过这组数据其实有些过时了,Colin Scott这位有心人重新整理了一份数据,并且还是随时间变化的,对比起来看非常有意思。更新今年的数据如下: L1 cache reference ........................... 1 ns Branch mispredict ............................ 3 ns L2 cache reference ........................... 4 ns Mutex lock/unlock ........................... 17 ns Main memory reference ...................... 100 ns Send 2K bytes over commodity network ....... 500 ns = 0.5 μs Compress 1K bytes with Zippy ............. 2,000 ns = 2 μs SSD ...
Read more »

频繁集和关联分析

Posted on 2012-12-02 |
关联分析是一种非监督学习算法,最早用于从购物数据库中挖掘有意义的联系,所发现的联系可以用强关联规则或者频繁集的形式表示。 令 $I=\brace{i_1,\dots,i_d}$ 是类似购物篮数据中所有项的集合(比如所有商品的集合),包含0个或多个项的集合称作项集(itemset),如果一个项集包含 $k$ 项,则称作 k-项集。令 $T=\brace{t_1,\dots,t_N}$ 是所有事务的集合(比如一次购物行为即等同于一个事务),显然每个事务 $t_i$ 都是一个项集,且是 $I$ 的子集。 事务的宽度定义为事务中出现项的个数。如果项集 $X$ 是事务 $t_j$ 的子集,则称事务 $t_j$ 包括项集 $X$ 。定义项集的支持度计数是包含该项集的事务个数: \[\sigma(X) = | {t_i | X \subseteq t_i, t_i \in T} |\] 关联规则 是形如 $X \to Y$ 的蕴含表达式,其中 $X$ 和 $Y$ 是不想交的项集,即 $X \cap Y = \emptyset$ 。关联规则的强度可以用支持度(support)和置信度(conf ...
Read more »

EM算法

Posted on 2012-09-14 |
EM算法(Expectation Maximization)可以解决的问题示例: GMM和HMM的参数估计(统计学习方法 第9、10章) Mitchell书中提到可以用于贝叶斯网络 问题定义 给定的训练样本是$\brace{x^{(1)},x^{(2)},\cdots,x^{(m)} }$,样本间独立,我们想找到每个样本隐含的类别$z$,能使得$p(x,z)$最大。$p(x,z)$的最大似然估计如下: \[\begin{aligned} \ell(\theta) & = \sum_{i=1}^m \log p(x;\theta) \\ &=\sum_{i=1}^m \log \sum_z p(x,z;\theta). \end{aligned}\] 第一步是对极大似然取对数,第二步是对每个样例的每个可能类别$z$求联合分布概率和。但是直接求$\theta$一般比较困难,因为有隐藏变量$z$存在,但是一般确定了$z$后,求解就容易了。 EM是一种解决存在隐含变量优化问题的有效方法。既然不能直接最大化$\ell(\theta)$,但可以不断地建立$\ ...
Read more »
1 … 3 4 5 … 19
Julian Qian

Julian Qian

记录编程、Hack和自娱自乐的一些玩意。

189 posts
60 tags
RSS
Creative Commons
© 2024 Julian Qian
Powered by Jekyll
Theme - NexT.Mist