🔭 Dataframe explorer UI

Submitted by Streamlit Data Team!

Summary

Let your viewers explore dataframes themselves! Learn more about it on this blog post

Functions

`dataframe_explorer`

Adds a UI on top of a dataframe to let viewers filter columns

Parameters:

Name	Type	Description	Default
`df`	`DataFrame`	Original dataframe	required
`case`	`bool`	If True, text inputs will be case sensitive. Defaults to True.	`True`

Returns:

Type	Description
`DataFrame`	pd.DataFrame: Filtered dataframe

Source code in src/streamlit_extras/dataframe_explorer/__init__.py

@extra
def dataframe_explorer(df: pd.DataFrame, case: bool = True) -> pd.DataFrame:
    """
    Adds a UI on top of a dataframe to let viewers filter columns

    Args:
        df (pd.DataFrame): Original dataframe
        case (bool, optional): If True, text inputs will be case sensitive. Defaults to True.

    Returns:
        pd.DataFrame: Filtered dataframe
    """

    random_key_base = pd.util.hash_pandas_object(df)

    df = df.copy()

    # Try to convert datetimes into standard format (datetime, no timezone)
    for col in df.columns:
        if is_object_dtype(df[col]):
            with contextlib.suppress(Exception):
                df[col] = pd.to_datetime(df[col])

        if is_datetime64_any_dtype(df[col]):
            df[col] = df[col].dt.tz_localize(None)

    modification_container = st.container()

    with modification_container:
        to_filter_columns = st.multiselect(
            "Filter dataframe on",
            df.columns,
            key=f"{random_key_base}_multiselect",
        )
        filters: dict[str, Any] = {}
        for column in to_filter_columns:
            left, right = st.columns((1, 20))
            # Treat columns with < 10 unique values as categorical
            if isinstance(df[column].dtype, pd.CategoricalDtype) or df[column].nunique() < 10:
                left.write("↳")
                filters[column] = right.multiselect(
                    f"Values for {column}",
                    df[column].unique(),
                    default=list(df[column].unique()),
                    key=f"{random_key_base}_{column}",
                )
                df = df[df[column].isin(filters[column])]
            elif is_numeric_dtype(df[column]):
                left.write("↳")
                _min = float(df[column].min())
                _max = float(df[column].max())
                step = (_max - _min) / 100
                filters[column] = right.slider(
                    f"Values for {column}",
                    _min,
                    _max,
                    (_min, _max),
                    step=step,
                    key=f"{random_key_base}_{column}",
                )
                df = df[df[column].between(*filters[column])]
            elif is_datetime64_any_dtype(df[column]):
                left.write("↳")
                filters[column] = right.date_input(
                    f"Values for {column}",
                    value=(
                        df[column].min(),
                        df[column].max(),
                    ),
                    key=f"{random_key_base}_{column}",
                )
                if len(filters[column]) == 2:
                    filters[column] = tuple(map(pd.to_datetime, filters[column]))
                    start_date, end_date = filters[column]
                    df = df.loc[df[column].between(start_date, end_date)]
            else:
                left.write("↳")
                filters[column] = right.text_input(
                    f"Pattern in {column}",
                    key=f"{random_key_base}_{column}",
                )
                if filters[column]:
                    df = df[df[column].str.contains(filters[column], case=case)]

    return df

Import:

from streamlit_extras.dataframe_explorer import dataframe_explorer # (1)!

You should add this to the top of your .py file

Examples

`example_one`

def example_one() -> None:
    dataframe = generate_fake_dataframe(size=500, cols="dfc", col_names=("date", "income", "person"), seed=1)
    filtered_df = dataframe_explorer(dataframe, case=False)
    st.dataframe(filtered_df, width="stretch")

Output (beta)