import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df = pd.read_csv("bloodlead2.csv")
df.head()

exposed_bl = np.array(df[df['type'] == 'exposed']['blood_lead'])
control_bl = np.array(df[df['type'] == 'control']['blood_lead'])

resampled_vls = np.random.choice(control_bl, len(control_bl))

np.mean(resampled_vls)

17.575757575757574

meanlist = []
for each_sample in range(10000):
    resampled_vls = np.random.choice(control_bl, len(control_bl))
    fic_mean = np.mean(resampled_vls)
    meanlist.append(fic_mean)

fig, ax = plt.subplots()
ax.hist(meanlist)
ax.set_title('Expected distribution of mean with further sampling')
conf_interval = np.percentile(meanlist, [2.5, 97.5])
ax.plot([conf_interval[0], conf_interval[1]], [2600, 2600], 'r')

[<matplotlib.lines.Line2D at 0x241450166a0>]

Bootstrapping¶

Steps for bootstrapping¶

Get sample from population¶

Resample data from original sample¶

Calculate statistic of interest¶

Repeat resampling process many times¶

Visualize bootstrap distribution¶

	type	blood_lead
0	exposed	38
1	exposed	23
2	exposed	41
3	exposed	18
4	exposed	37