Spaces:

filbench
/

filbench-leaderboard

Running

App Files Files Community

ljvmiranda921 commited on Apr 19

Commit

15fe18d

1 Parent(s): 7ffe204

Add option to download file

Browse files

Files changed (2) hide show

.gitignore +1 -0
app.py +72 -2

.gitignore CHANGED Viewed

@@ -11,3 +11,4 @@ eval-results/
 eval-queue-bk/
 eval-results-bk/
 logs/

 eval-queue-bk/
 eval-results-bk/
 logs/
+filbench_results.csv

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import os
 import gradio as gr
 import pandas as pd
@@ -27,7 +28,7 @@ def restart_space():
 # 2. Load and populate leaderboard data
-def init_leaderboard(source: str, aggregate: bool = False) -> Leaderboard:
     results = load_dataset(source, split="train").to_pandas().to_dict(orient="records")
     raw_data = [EvalResult.init_from_dict(result) for result in results]
     all_data_json = [v.to_dict() for v in raw_data]
@@ -35,7 +36,6 @@ def init_leaderboard(source: str, aggregate: bool = False) -> Leaderboard:
     df = pd.DataFrame.from_records(all_data_json)
     df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df["Incomplete"] = ~df.isna().any(axis=1)
     master_columns = []
     for col in fields(AutoEvalColumn):
         if col.meta:
@@ -54,6 +54,11 @@ def init_leaderboard(source: str, aggregate: bool = False) -> Leaderboard:
     ]
     cols.append("Incomplete")
     df = df[cols].round(decimals=2)
     return Leaderboard(
         value=df,
@@ -90,6 +95,68 @@ def init_leaderboard(source: str, aggregate: bool = False) -> Leaderboard:
     )
 # 3. Actual setup of the HF Space
 demo = gr.Blocks(css=custom_css)
 with demo:
@@ -111,6 +178,9 @@ with demo:
             gr.Markdown(about.LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
     with gr.Row():
         with gr.Accordion("📙 Citation", open=False):
             citation_button = gr.Textbox(
                 value=about.CITATION_BUTTON_TEXT,

 import os
+import re
 import gradio as gr
 import pandas as pd
 # 2. Load and populate leaderboard data
+def get_results(source: str, aggregate: bool = False) -> pd.DataFrame:
     results = load_dataset(source, split="train").to_pandas().to_dict(orient="records")
     raw_data = [EvalResult.init_from_dict(result) for result in results]
     all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(all_data_json)
     df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df["Incomplete"] = ~df.isna().any(axis=1)
     master_columns = []
     for col in fields(AutoEvalColumn):
         if col.meta:
     ]
     cols.append("Incomplete")
     df = df[cols].round(decimals=2)
+    return df, master_columns
+def init_leaderboard(source: str, aggregate: bool = False) -> Leaderboard:
+    df, master_columns = get_results(source=source, aggregate=aggregate)
     return Leaderboard(
         value=df,
     )
+def download_results():
+    df, _ = get_results(source=REPO_RESULTS, aggregate=False)
+    df_agg, _ = get_results(source=REPO_RESULTS, aggregate=True)
+    # Cleanup
+    def extract_names(html_string):
+        match = re.search(r"<a[^>]*>(.*?)</a>", html_string)
+        if match:
+            extracted_text = match.group(1)  # "some value"
+        return extracted_text
+    def remove_emojis(string):
+        emoji_pattern = re.compile(
+            "["
+            "\U0001f600-\U0001f64f"  # emoticons
+            "\U0001f300-\U0001f5ff"  # symbols & pictographs
+            "\U0001f680-\U0001f6ff"  # transport & map symbols
+            "\U0001f700-\U0001f77f"  # alchemical symbols
+            "\U0001f780-\U0001f7ff"  # Geometric Shapes Extended
+            "\U0001f800-\U0001f8ff"  # Supplemental Arrows-C
+            "\U0001f900-\U0001f9ff"  # Supplemental Symbols and Pictographs
+            "\U0001fa00-\U0001fa6f"  # Chess Symbols
+            "\U0001fa70-\U0001faff"  # Symbols and Pictographs Extended-A
+            "\U00002702-\U000027b0"  # Dingbats
+            "\U000024c2-\U0001f251"
+            "]+",
+            flags=re.UNICODE,
+        )
+        return emoji_pattern.sub(r"", string)
+    df["Model"] = df["Model"].apply(extract_names)
+    df = df.rename(columns={col: remove_emojis(col).strip() for col in df.columns})
+    df["Multilingual"] = df["Multilingual"].apply(remove_emojis)
+    df["Model Type"] = df["Model Type"].apply(remove_emojis)
+    df = df.reset_index(drop=True)
+    # Cleanup the aggregated dataset
+    df_agg["Model"] = df_agg["Model"].apply(extract_names)
+    df_agg = df_agg.rename(
+        columns={col: remove_emojis(col).strip() for col in df_agg.columns}
+    )
+    df_agg = df_agg.reset_index(drop=True)
+    df_agg = df_agg[
+        [
+            "Model",
+            "Cultural Knowledge",
+            "Classical NLP",
+            "Reading Comprehension",
+            "Generation",
+        ]
+    ]
+    df_agg = df_agg.rename(
+        columns={col: f"agg_{col}" for col in df_agg.columns if col != "Model"}
+    )
+    # Combine the full and aggregated results
+    df_merge = df.merge(df_agg, on="Model")
+    filepath = "filbench_results.csv"
+    df_merge.to_csv(filepath, index=False)
+    return filepath
 # 3. Actual setup of the HF Space
 demo = gr.Blocks(css=custom_css)
 with demo:
             gr.Markdown(about.LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
     with gr.Row():
+        download_button = gr.DownloadButton("Download results (CSV)")
+        download_button.click(download_results, outputs=download_button)
         with gr.Accordion("📙 Citation", open=False):
             citation_button = gr.Textbox(
                 value=about.CITATION_BUTTON_TEXT,