设总体\(X\)为离散型随机变量,其分布律为\(P(X=x_k)=p(x_k, \theta), k=1,2,3\cdots\),其中 \(\theta\) 是待估参数, 则 \(X_1=x_1, X_2=x_2, \cdots, X_n=x_n\)的概率为 \[ \prod_{k=1}^{n} p(x_k,\theta) \] 上式是 \(\theta\) 的函数,称为似然函数,记为 \(L(\theta)\),即
\[ L(\theta)=L(\theta;x_1, x_2,\cdots,x_n)=\prod_{k=1}^{n}p(x_k,\theta) \] 设总体 \(X\) 为连续型随机变量,其密度函数为 \(f(x, \theta)\),其中 \(\theta\) 是待估参数,与离散型随机变量类似,我们定义似然函数如下: \[ L(\theta)=L(\theta;x_1, x_2, \cdots , x_n)=\prod_{k=1}^{n}f(x_k, \theta). \] 若对任意给定的样本值 \(x_1, x_2, \cdots , x_n\),存在 \(\hat{\theta}=\hat{\theta}(x_1, x_2, \cdots, x_n)\),使 \(L(\hat{\theta})=\max_{\theta}L(\theta),\) 则称 \(\hat{\theta}=\hat{\theta}(x_1, x_2, \cdots , x_n)\) 为 \(\theta\) 的最大似然估计值,称相应的统计量 \(\hat{\theta}(X_1, X_2, \cdots, X_n)\) 为 \(\theta\) 的最大似然估计量.
例1 设总体 \(X\sim E(\lambda)\),其密度函数为
\[ f(x, \lambda)=\cases{\lambda \mathrm{e}^{-\lambda x}, \quad x>0,\cr 0, \quad x\leq0, }\] 其中 \(\lambda\) 为未知参数.设\(X_i,i=1,2,\cdots,n\)是取自总体 \(X\) 的一个样本,求参数 \(\lambda\) 的最大似然估计.
设 \(x_1,x_2,\cdots,x_n\) 是相应于样本 \(X_1, X_2, \cdots, X_n\) 的一组样本值,则似然函数为
\[ L(\lambda)=L(\lambda;x_1,x_2, \cdots,x_n)=\prod_{k=1}^{n}f(x_k,\lambda)=\cases{\lambda^{n}\mathrm{e}^{-\lambda(x_1+x_2+\cdots+x_n)},\quad x_k>0 \cr 0,\quad x_k\leq 0} \] 其对数为 \[ \ln L(\lambda)=n\ln\lambda-\lambda(x_1+x_2+\cdots+x_n), \] 解 \[ \frac{ \mathrm{d}}{\mathrm{d}\lambda}\ln L(\lambda)=\frac{n}{\lambda}-(x_1+x_2+\cdots+x_n)=0, \] 得 \[ \hat{\lambda}=\frac{n}{x_1+x_2+\cdots+x_n}=\frac{1}{\bar{x}}. \] 于是参数 \(\lambda\) 的最大似然估计量为 \(\hat{\lambda}=\frac{1}{\bar{X}}\).