import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import blacksheep
import cptac

brca = cptac.Brca()
clinical = brca.get_clinical('mssm')
proteomics = brca.get_proteomics('umich')

annotations = clinical[['histologic_type']].copy()
annotations = blacksheep.binarize_annotations(annotations)
annotations.head()

outliers, qvalues = blacksheep.deva(proteomics.transpose(),
                                      annotations,
                                      up_or_down='up',
                                      aggregate=False,
                                      frac_filter=0.3)

cptac warning: Your version of cptac (1.5.1) is out-of-date. Latest is 1.5.0. Please run 'pip install --upgrade cptac' to update it. (C:\Users\sabme\anaconda3\lib\threading.py, line 910)

outliers.df.index = outliers.df.index.droplevel('Database_ID')
erbb2_outliers = outliers.df[outliers.df.index.str.match('ERBB2')]
erbb2_outliers.iloc[:, :8]

erbb2_outliers = erbb2_outliers.loc[:,~erbb2_outliers.columns.str.endswith('_notOutliers')]

outlier_list = erbb2_outliers.columns[erbb2_outliers.isin([1.0]).all()].tolist()
print(outlier_list)

['01BR017_outliers', '05BR026_outliers', '06BR006_outliers', '09BR004_outliers', '09BR005_outliers', '11BR004_outliers', '11BR010_outliers', '11BR011_outliers', '11BR028_outliers', '11BR030_outliers', '11BR038_outliers', '11BR060_outliers', '11BR075_outliers', '18BR009_outliers', '21BR001_outliers', '22BR005_outliers']

combined_data = brca.join_metadata_to_omics(metadata_name="clinical",
                                            metadata_source="mssm",
                                            metadata_cols=["histologic_type"],
                                            omics_name="proteomics", 
                                            omics_source="umich",
                                            omics_genes=['ERBB2'])

plt.figure(figsize=(8, 8))
sns.set_palette('colorblind')
ax = sns.boxplot(data=combined_data, showfliers=False, y='ERBB2_umich_proteomics', color='lightgray')
left = False
# This for loop labels all the specific outlier data points.
for sample in outlier_list:
    if left:
        position = -0.08
        left = False
    else:
        position = 0.01
        left = True
    sample = sample.split("_")[0]
    ax.annotate(sample, (position, combined_data.transpose()[sample].values[1]))
ax = sns.swarmplot(data=combined_data, y='ERBB2_umich_proteomics')
plt.show()

qvalues.df.head()

for col in qvalues.df.columns:
    qvalues.df.loc[qvalues.df[col] > 0.05, col] = np.nan

qvalues.df.index = qvalues.df.index.droplevel('Database_ID')
qvalues = qvalues.df[qvalues.df.index.str.match('ERBB2')]
erbb2_qvalues = qvalues.reset_index()['Name'] == 'ERBB2'
qvalues = qvalues.reset_index()[erbb2_qvalues]
qvalues.head()

# Setup
plt.figure(figsize=(8, 8))
sns.set_palette('colorblind')
cols = {'Inflitrating Ductal Carcinoma': 0, 'Inflitrating Lobular Carcinoma':1, 'Other (specify)':2, 'other, specify':3, 'IDC and DCIS':4, 'Infiltrating Ductal and Lobular Carcinoma':5, 'Mucinous Carcinoma':6, 'Infiltrating Ductal and Mucinous Carcinoma':7, 'invasive ductal carcinoma with extensive high-grade DCIS with comedonecrosis and features of papillary carcinoma':8, 'Mixed ductal and lobular features':9, 'Triple Negative':10}

# Plotting
ax = sns.boxplot(data=combined_data, y='ERBB2_umich_proteomics', x='histologic_type', color='lightgray')
ax = sns.swarmplot(data=combined_data, y='ERBB2_umich_proteomics',x='histologic_type', hue='histologic_type')

# Rotate x-labels for clarity
plt.xticks(rotation=45, ha="right") # rotation by 45 degrees

# Add annotations for outliers
for sample in outlier_list:
    try:
        sample = sample.split("_")[0]
        ax.annotate(sample, (cols[combined_data.transpose()[sample].values[0]], combined_data.transpose()[sample].values[1]))
    except KeyError:
        continue

# Move the legend outside of the plot
ax.legend(loc='center left', bbox_to_anchor=(1, 0.5))

plt.tight_layout() # Adjust layout to prevent any overlaps
plt.show()

	histologic_type_Inflitrating Ductal Carcinoma	histologic_type_Inflitrating Lobular Carcinoma	histologic_type_Other (specify)	histologic_type_other, specify	histologic_type_IDC and DCIS	histologic_type_Infiltrating Ductal and Lobular Carcinoma	histologic_type_Mucinous Carcinoma	histologic_type_Infiltrating Ductal and Mucinous Carcinoma	histologic_type_invasive ductal carcinoma with extensive high-grade DCIS with comedonecrosis and features of papillary carcinoma	histologic_type_Mixed ductal and lobular features	histologic_type_Triple Negative
Patient_ID
01BR001	Inflitrating Ductal Carcinoma	not-Inflitrating Lobular Carcinoma	not-Other (specify)	not-other, specify	not-IDC and DCIS	not-Infiltrating Ductal and Lobular Carcinoma	not-Mucinous Carcinoma	not-Infiltrating Ductal and Mucinous Carcinoma	not-invasive ductal carcinoma with extensive h...	not-Mixed ductal and lobular features	not-Triple Negative
01BR008	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
01BR009	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
01BR010	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
01BR015	Inflitrating Ductal Carcinoma	not-Inflitrating Lobular Carcinoma	not-Other (specify)	not-other, specify	not-IDC and DCIS	not-Infiltrating Ductal and Lobular Carcinoma	not-Mucinous Carcinoma	not-Infiltrating Ductal and Mucinous Carcinoma	not-invasive ductal carcinoma with extensive h...	not-Mixed ductal and lobular features	not-Triple Negative

		fisherFDR_histologic_type_Inflitrating Ductal Carcinoma_not-Inflitrating Ductal Carcinoma	fisherFDR_histologic_type_Inflitrating Lobular Carcinoma_Inflitrating Lobular Carcinoma	fisherFDR_histologic_type_Other (specify)_Other (specify)
Name	Database_ID
HSPB6	ENSP00000004982.3	NaN	0.019135	NaN
SKAP2	ENSP00000005587.2	NaN	NaN	0.178671
UBR7	ENSP00000013070.6	NaN	NaN	0.178671
PTBP1	ENSP00000014112.5	NaN	NaN	0.178671
HEBP1	ENSP00000014930.4	NaN	0.062689	NaN

Use Case 8: Outliers¶

Step 1: Importing packages and setting up the notebook¶

Step 2: Binarize Data¶

Step 3: Perform Outlier Analysis¶

Step 4: Inspect Results¶

Step 5: Visualizing Outliers¶

Step 6: Looking at the Qvalue table¶

Additional Applications¶

	01BR001_outliers	01BR008_outliers	01BR009_outliers	01BR010_outliers	01BR015_outliers	01BR017_outliers	01BR018_outliers	01BR020_outliers
Name
ERBB2	0.0	0.0	0.0	0.0	0.0	1.0	0.0	0.0