Discrete Distributions

Bernoulli Distribution

Models: Single binary outcome (success/failure).
Example: Flipping a coin.
PMF: $P (X = x) = p^{x} (1 - p)^{1 - x}, x \in {0, 1}$

E [X] = x = 0 \sum 1 x \cdot P (X = x) = 0 \cdot (1 - p) + 1 \cdot p = p

Var (X) = E [X^{2}] - (E [X])^{2}

E [X^{2}] = x = 0 \sum 1 x^{2} \cdot P (X = x) = 0^{2} \cdot (1 - p) + 1^{2} \cdot p = p

Var (X) = p - p^{2} = p (1 - p)

Binomial Distribution

X~Bin(n, p) = sum of i.i.d. Bern(p) RVs

Models: Number of successes in $n$ independent Bernoulli trials.
Example: Number of heads in $n$ coin flips.
PMF: $P (X = k) = (k n) p^{k} (1 - p)^{n - k}, k = 0, 1, \dots, n$

E [X] = n p

Var (X) = n p (1 - p)

Multinomial Distribution

Models: Generalization of the binomial distribution for more than two outcomes.
Example: Rolling a die 10 times and counting the occurrences of each face.
PMF: $P (X_{1} = k_{1}, \dots, X_{m} = k_{m}) = \frac{n !}{k _{1} ! \dots k _{m} !} p_{1}^{k_{1}} \dots p_{m}^{k_{m}}$ where $k_{1} + \dots + k_{m} = n$ and $p_{1} + \dots + p_{m} = 1$ . $E [X_{i}] = n p_{i}$ $Var (X_{i}) = n p_{i} (1 - p_{i})$ $Cov (X_{i}, X_{j}) = - n p_{i} p_{j}$

Hypergeometric Distribution

Models: Number of successes in a n draws (without replacement)
Example: Drawing 5 cards from a deck and counting the number of aces.
PMF: $P (X = k) = \frac{( k K ) ( n - k N - K )}{( n N )}, max (0, n + K - N) \leq k \leq min (K, n)$ where $N$ is the population size, $K$ is the number of successes in the population, and $n$ is the sample size. $E [X] = n \frac{K}{N}$ $Var (X) = n \frac{K}{N} \frac{N - K}{N} \frac{N - n}{N - 1}$

Negative hypergeometric distribution

Models: Number of draws (without replacement) to achieve r successes
Example: Number of cards that must be drawn to collect 4 aces.
PMF:

P (X = k) = \frac{( r - 1 k - 1 ) ( K - r N - k )}{( K N )} ​

Geometric Distribution

Models: Number of trials until the first success.
Example: Number of flips until first heads.
PMF: $P (X = k) = (1 - p)^{k - 1} p, k = 1, 2, \dots$

E [X] = \frac{1}{p}

Var (X) = \frac{1 - p}{p ^{2}}

Negative Binomial Distribution

X~NBin(r, p) = sum of i.i.d. Geom(p) RVs

Models: Number of trials needed to achieve k successes (inclusive of the k-th trial).
Example: Number of coin flips required to get 3 heads.
PMF: $P (X = k) = (r - 1 k - 1) p^{r} (1 - p)^{k - r}, k = r, r + 1, \dots$ where $r$ is the number of successes. $E [X] = \frac{r}{p}$ $Var (X) = \frac{r ( 1 - p )}{p ^{2}}$

Poisson Distribution

$X \sim P o i s (λ)$ models the #(events that occur in a unit of space or time). $λ$ is the expected number of events.

P (X = k) = \frac{λ ^{k} e ^{- λ}}{k !}, k = 0, 1, 2, \dots

E [X] = λ

Var (X) = λ

Derivation

Suppose you have n trials, each with $p = \frac{m}{n}$ of success. Then the probability of r successes can be modelled by the binomial distribution:

P (r successes) = (r n) (\frac{m}{n})^{r} (1 - \frac{m}{n})^{n - r}

As n tends to infinity, we have

\frac{1}{r !} \to_{1} \frac{n ( n - 1 ) \dots ( n - r + 1 )}{n ^{r}} \cdot m^{r} \to e^{- m} (1 - \frac{m}{n})^{n} \to_{1} (1 - \frac{m}{n})^{- r}

This gives rise to the Poisson pmf:

P (r successes) \approx \frac{e ^{- m} m ^{r}}{r !}

Discrete Uniform Distribution

Models: All outcomes in a finite set are equally likely.
Example: Rolling a fair die.
PMF: $P (X = k) = \frac{1}{n}, k = 1, 2, \dots, n$ $E [X] = \frac{n + 1}{2}$ $Var (X) = \frac{n ^{2} - 1}{12}$

Continuous Distributions

Continuous Uniform Distribution

f (x) = \frac{1}{b - a}, a \leq x \leq b

E [X] = \frac{a + b}{2}

Var (X) = \frac{( b - a ) ^{2}}{12}

Exponential Distribution

Models: Time between events in a Poisson process.
Example: Time between incoming calls.
PDF: $f (x) = λ e^{- λ x}, x \geq 0$

E [X] = \frac{1}{λ}

Var (X) = \frac{1}{λ ^{2}}

Gamma Distribution

X~Gamma( $α, λ$ ) models the amount of time until n events. E.g. Time until the $k^{t h}$ earthquake.

Gamma(n, λ) = sum of i.i.d. Expo(λ)
Gamma(1, λ) ∼ Expo(λ)

Shape-Rate Parameterization: the preferred parameterization for Bayesian stats

f (x; α, λ) = \frac{λ ^{α} x ^{α - 1} e ^{- λ x}}{Γ ( α )}, x > 0

where $Γ (α)$ is the Gamma function $Γ (α) = \int_{0}^{\infty} t^{α - 1} e^{- t} d t$

E (X) = \frac{α}{λ}

Va r (X) = \frac{α}{λ ^{2}}

Shape-Scale Parameterization: models the waiting time until the $α$ th event when each event occurs on average every $θ$ units of time.

f (x; α, θ) = \frac{1}{θ ^{α} Γ ( α )} x^{α - 1} e^{- x / θ}, x > 0

E (X) = α θ

Va r (X) = α θ^{2}

Weibull Distribution

Models: Lifetimes of objects.
Example: Time to failure of a machine.
PDF: $f (x) = \frac{k}{λ} (\frac{x}{λ})^{k - 1} e^{- (x / λ)^{k}}, x \geq 0$

E [X] = λ Γ (1 + \frac{1}{k})

Var (X) = λ^{2} [Γ (1 + \frac{2}{k}) - (Γ (1 + \frac{1}{k}))^{2}]

Pareto distribution

Models: Heavy-tailed distributions, often used to model situations where a small number of occurrences account for the majority of the effect.
Example: The distribution of wealth in a population, where a small percentage of people hold most of the wealth. $f (x; x_{m}, α) = {\frac{α x _{m}^{α}}{x ^{α + 1}} 0 for x \geq x_{m}, for x < x_{m},$ where $x_{m}$ is the scale parameter (minimum value) and $α$ is the shape parameter.

E [X] = \frac{α x _{m}}{α - 1}

Var (X) = {\frac{x _{m}^{2} α}{( α - 1 ) ^{2} ( α - 2 )} undefined for α > 2, for α \leq 2

Normal (Gaussian) Distribution

f (x) = \frac{1}{2 π σ ^{2}} e^{- \frac{( x - μ ) ^{2}}{2 σ ^{2}}}

E [X] = μ

Var (X) = σ^{2}

Bivariate Normal Distribution

f (x, y) = \frac{1}{2 π σ _{x} σ _{y} 1 - ρ ^{2}} exp (- \frac{1}{2 ( 1 - ρ ^{2} )} [\frac{( x - μ _{x} ) ^{2}}{σ _{x}^{2}} - 2 ρ \frac{( x - μ _{x} ) ( y - μ _{y} )}{σ _{x} σ _{y}} + \frac{( y - μ _{y} ) ^{2}}{σ _{y}^{2}}])

E [X] = μ_{x}, E [Y] = μ_{y}

Var (X) = σ_{x}^{2}, Var (Y) = σ_{y}^{2}

Cov (X, Y) = ρ σ_{x} σ_{y}

Multivariate Normal Distribution

f (x) = \frac{1}{( 2 π ) ^{k} ∣Σ∣} exp (- \frac{1}{2} (x - μ)^{⊤} Σ^{- 1} (x - μ))

where $x$ is a k-dimensional vector, $μ$ is the mean vector, and $Σ$ is the covariance matrix.

E [X] = μ

Cov (X) = Σ

Log-Normal Distribution

Models: Multiplicative processes.
Example: Stock prices.
PDF: $f (x) = \frac{1}{x σ 2 π} e^{- \frac{( l n x - μ ) ^{2}}{2 σ ^{2}}}, x > 0$

E [X] = e^{μ + \frac{σ ^{2}}{2}}

Var (X) = (e^{σ^{2}} - 1) e^{2 μ + σ^{2}}

Chi-Square Distribution

Models: Sum of squares of normal variables.
Example: Goodness-of-fit tests.
PDF: $f (x) = \frac{1}{2 ^{k /2} Γ ( k /2 )} x^{k /2 - 1} e^{- x /2}, x \geq 0$

E [X] = k

Var (X) = 2 k

F-Distribution

Models: Ratio of two scaled chi-square distributions.
Example: ANOVA testing.
PDF: $f (x) = \frac{( \frac{d _{1} x}{d _{1} x + d _{2}} ) ^{d_{1}} ( \frac{d _{2}}{d _{1} x + d _{2}} ) ^{d_{2}}}{x B ( \frac{d _{1}}{2} , \frac{d _{2}}{2} )}, x \geq 0$ where $d_{1}$ and $d_{2}$ are the degrees of freedom.

For $d_{2} > 2$ :

E [X] = \frac{d _{2}}{d _{2} - 2}

For $d_{2} > 4$ :

Var (X) = \frac{2 d _{2}^{2} ( d _{1} + d _{2} - 2 )}{d _{1} ( d _{2} - 2 ) ^{2} ( d _{2} - 4 )}

The variance is undefined for $d_{2} \leq 4$ .

Beta Distribution

Models: Distribution of probabilities.
Example: Distribution of success rates.
PDF: $f (x) = \frac{x ^{α - 1} ( 1 - x ) ^{β - 1}}{B ( α , β )}, 0 \leq x \leq 1$

where $B (α, β) = \int_{0}^{1} t^{α - 1} (1 - t)^{β - 1} d t$ or $B (α, β) = \frac{Γ ( α ) Γ ( β )}{Γ ( α + β )}$

E [X] = \frac{α}{α + β}

Var (X) = \frac{α β}{( α + β ) ^{2} ( α + β + 1 )}

Dirichlet Distribution

Models: Probabilities of outcomes in a multinomial distribution.
Example: Proportion of time spent on different activities during a day.
PDF: $f (x_{1}, \dots, x_{k}) = \frac{1}{B ( α )} i = 1 \prod k x_{i}^{α_{i} - 1}$ where $B (α)$ is the multinomial Beta function. $E [X_{i}] = \frac{α _{i}}{\sum _{j = 1}^{k} α _{j}}$ $Var (X_{i}) = \frac{α _{i} ( α _{0} - α _{i} )}{α _{0}^{2} ( α _{0} + 1 )}$ where $α_{0} = \sum_{j = 1}^{k} α_{j}$ .

t-Distribution

Models: Distribution of sample means when population variance is unknown.
Example: Testing hypotheses about means.
PDF: $f (t) = \frac{Γ ( \frac{ν + 1}{2} )}{ν π Γ ( \frac{ν}{2} )} (1 + \frac{t ^{2}}{ν})^{- \frac{ν + 1}{2}}$ where $ν$ is the degrees of freedom.

For $ν > 1$ :

E [X] = 0

For $ν > 2$ :

Var (X) = \frac{ν}{ν - 2}

The variance is undefined for $ν \leq 2$ .

Cauchy Distribution

Models: Distributions with heavy tails.
Example: Resonance behavior.
PDF: $f (x) = \frac{1}{π [ 1 + ( x - x _{0} ) ^{2} ]}$

statistical distance

measures how different 2 probability distributions P and Q are from each other.

asymmetric measure:
- Kullback-Leibler Divergence: $D_{K L} (P ∥ Q) = \sum_{x} P (x) lo g \frac{P ( x )}{Q ( x )}$
  - MLE can be seen as minimizing the KL divergence
symmetric measures:
- total variation difference: $D_{T V} (P, Q) = \frac{1}{2} \sum_{x} ∣ P (x) - Q (x) ∣$
- Hellinger distance: $H^{2} (P, Q) = \frac{1}{2} \sum_{x} (P (x) - Q (x))^{2}$

Summer

Table of Contents

distributions

Discrete Distributions

Bernoulli Distribution

Binomial Distribution

Multinomial Distribution

Hypergeometric Distribution

Negative hypergeometric distribution

Geometric Distribution

Negative Binomial Distribution

Poisson Distribution

Derivation

Discrete Uniform Distribution

Continuous Distributions

Continuous Uniform Distribution

Exponential Distribution

Gamma Distribution

Weibull Distribution

Pareto distribution

Normal (Gaussian) Distribution

Bivariate Normal Distribution

Multivariate Normal Distribution

Log-Normal Distribution

Chi-Square Distribution

F-Distribution

Beta Distribution

Dirichlet Distribution

t-Distribution

Cauchy Distribution

statistical distance

Graph View

Backlinks

Summer

Table of Contents

distributions

Discrete Distributions §

Bernoulli Distribution §

Binomial Distribution §

Multinomial Distribution §

Hypergeometric Distribution §

Negative hypergeometric distribution §

Geometric Distribution §

Negative Binomial Distribution §

Poisson Distribution §

Derivation §

Discrete Uniform Distribution §

Continuous Distributions §

Continuous Uniform Distribution §

Exponential Distribution §

Gamma Distribution §

Weibull Distribution §

Pareto distribution §

Normal (Gaussian) Distribution §

Bivariate Normal Distribution §

Multivariate Normal Distribution §

Log-Normal Distribution §

Chi-Square Distribution §

F-Distribution §

Beta Distribution §

Dirichlet Distribution §

t-Distribution §

Cauchy Distribution §

statistical distance §

Graph View

Backlinks

Discrete Distributions

Bernoulli Distribution

Binomial Distribution

Multinomial Distribution

Hypergeometric Distribution

Negative hypergeometric distribution

Geometric Distribution

Negative Binomial Distribution

Poisson Distribution

Derivation

Discrete Uniform Distribution

Continuous Distributions

Continuous Uniform Distribution

Exponential Distribution

Gamma Distribution

Weibull Distribution

Pareto distribution

Normal (Gaussian) Distribution

Bivariate Normal Distribution

Multivariate Normal Distribution

Log-Normal Distribution

Chi-Square Distribution

F-Distribution

Beta Distribution

Dirichlet Distribution

t-Distribution

Cauchy Distribution

statistical distance