Spaces:

barunsaha
/

slide-deck-ai

Running

App Files Files Community

adibak commited on May 17

Commit

90c828a

1 Parent(s): acafc9b

make changes per PR review

Browse files

Files changed (3) hide show

app.py +23 -35
global_config.py +1 -0
helpers/file_manager.py +4 -8

app.py CHANGED Viewed

@@ -13,7 +13,6 @@ import httpx
 import huggingface_hub
 import json5
 import ollama
-from pypdf import PdfReader
 import requests
 import streamlit as st
 from dotenv import load_dotenv
@@ -224,9 +223,9 @@ with st.sidebar:
             )
         # make slider with initial values
-        page_range_slider = st.slider("7: Specify a page range:",
-                  1, 50, [1, 50])
-        st.session_state["page_range_slider"] = page_range_slider
 def build_ui():
@@ -262,8 +261,8 @@ def set_up_chat_ui():
     Prepare the chat interface and related functionality.
     """
     # set start and end page
-    st.session_state["start_page"] = st.session_state["page_range_slider"][0]
-    st.session_state["end_page"] = st.session_state["page_range_slider"][1]
     with st.expander('Usage Instructions'):
         st.markdown(GlobalConfig.CHAT_USAGE_INSTRUCTIONS)
@@ -293,38 +292,27 @@ def set_up_chat_ui():
         if prompt['files']:
             # store uploaded pdf in session state
             uploaded_pdf = prompt['files'][0]
-            st.session_state["pdf_file"] = uploaded_pdf
             # Apparently, Streamlit stores uploaded files in memory and clears on browser close
             # https://docs.streamlit.io/knowledge-base/using-streamlit/where-file-uploader-store-when-deleted
-            # get validated page range
-            st.session_state["start_page"], st.session_state["end_page"] = filem.validate_page_range(uploaded_pdf,
-                                                                                                     st.session_state["start_page"],
-                                                                                                     st.session_state["end_page"])
-            # show sidebar text for page selection and file name
-            with st.sidebar:
-                st.text(f"Extracting pages {st.session_state["start_page"]} to {st.session_state["end_page"]} in {uploaded_pdf.name}")
-            # get pdf contents
-            st.session_state[ADDITIONAL_INFO] = filem.get_pdf_contents(uploaded_pdf,
-                                                                        (st.session_state["start_page"],
-                                                                         st.session_state["end_page"]))
-        else:
-            # if we're using the same file (nothing new uploaded)
-            if "start_page" in st.session_state and "end_page" in st.session_state and "pdf_file" in st.session_state:
-                # validate the page range
-                st.session_state["start_page"], st.session_state["end_page"] = filem.validate_page_range(st.session_state["pdf_file"],
-                                                                                                    st.session_state["start_page"],
-                                                                                                    st.session_state["end_page"])
-                # update sidebar text for name and page selection
-                with st.sidebar:
-                    st.text(f"Extracting pages {st.session_state["start_page"]} to {st.session_state["end_page"]} in {st.session_state["pdf_file"].name}")
-                # get contents
-                st.session_state[ADDITIONAL_INFO] = filem.get_pdf_contents(st.session_state["pdf_file"],
-                                                                            (st.session_state["start_page"], st.session_state["end_page"]))
         provider, llm_name = llm_helper.get_provider_model(
             llm_provider_to_use,
             use_ollama=RUN_IN_OFFLINE_MODE

 import huggingface_hub
 import json5
 import ollama
 import requests
 import streamlit as st
 from dotenv import load_dotenv
             )
         # make slider with initial values
+        page_range_slider = st.slider('7: Specify a page range for the PDF file:',
+                  1, GlobalConfig.MAX_ALLOWED_PAGES, [1, GlobalConfig.MAX_ALLOWED_PAGES])
+        st.session_state['page_range_slider'] = page_range_slider
 def build_ui():
     Prepare the chat interface and related functionality.
     """
     # set start and end page
+    st.session_state['start_page'] = st.session_state['page_range_slider'][0]
+    st.session_state['end_page'] = st.session_state['page_range_slider'][1]
     with st.expander('Usage Instructions'):
         st.markdown(GlobalConfig.CHAT_USAGE_INSTRUCTIONS)
         if prompt['files']:
             # store uploaded pdf in session state
             uploaded_pdf = prompt['files'][0]
+            st.session_state['pdf_file'] = uploaded_pdf
             # Apparently, Streamlit stores uploaded files in memory and clears on browser close
             # https://docs.streamlit.io/knowledge-base/using-streamlit/where-file-uploader-store-when-deleted
+        # get validated page range
+        st.session_state['start_page'], st.session_state['end_page'] = filem.validate_page_range(
+                                                                                st.session_state['pdf_file'],
+                                                                                st.session_state['start_page'],
+                                                                                st.session_state['end_page']
+                                                                            )
+        # show sidebar text for page selection and file name
+        with st.sidebar:
+            st.text(f'Extracting pages {st.session_state['start_page']} to {st.session_state['end_page']} in {st.session_state['pdf_file'].name}')
+        # get pdf contents
+        st.session_state[ADDITIONAL_INFO] = filem.get_pdf_contents(
+                                                    st.session_state['pdf_file'],
+                                                    (st.session_state['start_page'],
+                                                    st.session_state['end_page'])
+                                                )
         provider, llm_name = llm_helper.get_provider_model(
             llm_provider_to_use,
             use_ollama=RUN_IN_OFFLINE_MODE

global_config.py CHANGED Viewed

@@ -108,6 +108,7 @@ class GlobalConfig:
     DEFAULT_MODEL_INDEX = int(os.environ.get('DEFAULT_MODEL_INDEX', '4'))
     LLM_MODEL_TEMPERATURE = 0.2
     MAX_PAGE_COUNT = 50
     LLM_MODEL_MAX_INPUT_LENGTH = 1000  # characters
     LOG_LEVEL = 'DEBUG'

     DEFAULT_MODEL_INDEX = int(os.environ.get('DEFAULT_MODEL_INDEX', '4'))
     LLM_MODEL_TEMPERATURE = 0.2
     MAX_PAGE_COUNT = 50
+    MAX_ALLOWED_PAGES = 150
     LLM_MODEL_MAX_INPUT_LENGTH = 1000  # characters
     LOG_LEVEL = 'DEBUG'

helpers/file_manager.py CHANGED Viewed

@@ -19,23 +19,19 @@ logger = logging.getLogger(__name__)
 def get_pdf_contents(
         pdf_file: st.runtime.uploaded_file_manager.UploadedFile,
-        page_range: tuple[int, int],
-        max_pages: int = GlobalConfig.MAX_PAGE_COUNT
-) -> str:
     """
     Extract the text contents from a PDF file.
     :param pdf_file: The uploaded PDF file.
     :param page_range: The range of pages to extract contents from.
-    :param max_pages: The max no. of pages to extract contents from.
     :return: The contents.
     """
     reader = PdfReader(pdf_file)
-    start, end = page_range                # set start and end per the range (user-specified values)
-    print(f"starting at {start}, ending {end}")
     text = ''
     for page_num in range(start - 1, end):
@@ -51,7 +47,7 @@ def validate_page_range(pdf_file: st.runtime.uploaded_file_manager.UploadedFile,
     :param pdf_file: The uploaded PDF file.
     :param start: The start page
-    :param max_pages: The end page
     :return: The validated page range tuple
     """
     n_pages = len(PdfReader(pdf_file).pages)
@@ -65,4 +61,4 @@ def validate_page_range(pdf_file: st.runtime.uploaded_file_manager.UploadedFile,
     if start > end:  # if the start is higher than the end, make it 1
         start = 1
-    return (start, end)

 def get_pdf_contents(
         pdf_file: st.runtime.uploaded_file_manager.UploadedFile,
+        page_range: tuple[int, int]) -> str:
     """
     Extract the text contents from a PDF file.
     :param pdf_file: The uploaded PDF file.
     :param page_range: The range of pages to extract contents from.
     :return: The contents.
     """
     reader = PdfReader(pdf_file)
+    start, end = page_range  # set start and end per the range (user-specified values)
     text = ''
     for page_num in range(start - 1, end):
     :param pdf_file: The uploaded PDF file.
     :param start: The start page
+    :param end: The end page
     :return: The validated page range tuple
     """
     n_pages = len(PdfReader(pdf_file).pages)
     if start > end:  # if the start is higher than the end, make it 1
         start = 1
+    return start, end