Spaces:

prithivMLmods
/

Multimodal-VLM-Thinking

Sleeping

App Files Files Community

prithivMLmods commited on Mar 23

Commit

ee275ec

verified ·

1 Parent(s): 8b09592

update app

Browse files

Files changed (1) hide show

app.py +5 -30

app.py CHANGED Viewed

@@ -1,4 +1,3 @@
 import os
 import gc
 import json
@@ -21,9 +20,6 @@ from transformers import (
     AutoTokenizer,
 )
-# =========================
-# Config
-# =========================
 MAX_MAX_NEW_TOKENS = 4096
 DEFAULT_MAX_NEW_TOKENS = 1024
 MAX_INPUT_TOKEN_LENGTH = int(os.getenv("MAX_INPUT_TOKEN_LENGTH", "4096"))
@@ -42,9 +38,6 @@ if torch.cuda.is_available():
     print("device name:", torch.cuda.get_device_name(torch.cuda.current_device()))
 print("Using device:", device)
-# =========================
-# Models
-# =========================
 MODEL_ID_X = "Senqiao/VisionThink-Efficient"
 processor_x = AutoProcessor.from_pretrained(MODEL_ID_X, trust_remote_code=True, use_fast=False)
 model_x = Qwen2_5_VLForConditionalGeneration.from_pretrained(
@@ -104,9 +97,7 @@ MODELS = {
 MODEL_CHOICES = list(MODELS.keys())
-# =========================
-# Examples
-# =========================
 image_examples = [
     {"query": "Describe the safety measures in the image. Conclude (Safe / Unsafe).", "image": "images/5.jpg", "model": "Lumian-VLR-7B-Thinking"},
     {"query": "Convert this page to doc [markdown] precisely.", "image": "images/3.png", "model": "Typhoon-OCR-3B"},
@@ -116,9 +107,7 @@ image_examples = [
     {"query": "Convert chart to OTSL.", "image": "images/2.png", "model": "openbmb/MiniCPM-V-4"},
 ]
-# =========================
-# Helpers
-# =========================
 def pil_to_data_url(img: Image.Image, fmt="PNG"):
     buf = BytesIO()
     img.save(buf, format=fmt)
@@ -213,9 +202,6 @@ def calc_timeout_image(*args, **kwargs):
     except Exception:
         return 60
-# =========================
-# Inference
-# =========================
 @spaces.GPU(duration=calc_timeout_image)
 def generate_image(
     model_name,
@@ -364,9 +350,6 @@ def run_image(model_name, text, image_b64, max_new_tokens_v, temperature_v, top_
 def noop():
     return None
-# =========================
-# SVGs
-# =========================
 THUNDER_SVG = f"""
 <svg viewBox="0 0 24 24" xmlns="http://www.w3.org/2000/svg">
   <path fill="white" d="M13.2 2L5 13h5l-1.2 9L19 10h-5l-.8-8Z"/>
@@ -389,9 +372,7 @@ MODEL_TABS_HTML = "".join([
     for m in MODEL_CHOICES
 ])
-# =========================
-# CSS
-# =========================
 css = f"""
 @import url('https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800&family=JetBrains+Mono:wght@400;500;600&display=swap');
 *{{box-sizing:border-box;margin:0;padding:0}}
@@ -417,7 +398,7 @@ footer{{display:none!important}}
     box-shadow:0 25px 50px -12px rgba(0,0,0,.6),0 0 0 1px rgba(255,255,255,.03);
 }}
 .app-header{{
-    background:linear-gradient(135deg,#18181b,#132013);border-bottom:1px solid #27272a;
     padding:14px 24px;display:flex;align-items:center;justify-content:space-between;flex-wrap:wrap;gap:12px;
 }}
 .app-header-left{{display:flex;align-items:center;gap:12px}}
@@ -701,9 +682,6 @@ footer{{display:none!important}}
 }}
 """
-# =========================
-# JS
-# =========================
 gallery_js = r"""
 () => {
 function init() {
@@ -1163,9 +1141,6 @@ watchOutputs();
 }
 """
-# =========================
-# App
-# =========================
 with gr.Blocks() as demo:
     hidden_image_b64 = gr.Textbox(value="", elem_id="hidden-image-b64", elem_classes="hidden-input", container=False)
     prompt = gr.Textbox(value="", elem_id="prompt-gradio-input", elem_classes="hidden-input", container=False)
@@ -1311,7 +1286,7 @@ with gr.Blocks() as demo:
         </div>
         <div class="exp-note">
-            Experimental VLM Suite &middot; Video inference removed as requested
         </div>
         <div class="app-statusbar">

 import os
 import gc
 import json
     AutoTokenizer,
 )
 MAX_MAX_NEW_TOKENS = 4096
 DEFAULT_MAX_NEW_TOKENS = 1024
 MAX_INPUT_TOKEN_LENGTH = int(os.getenv("MAX_INPUT_TOKEN_LENGTH", "4096"))
     print("device name:", torch.cuda.get_device_name(torch.cuda.current_device()))
 print("Using device:", device)
 MODEL_ID_X = "Senqiao/VisionThink-Efficient"
 processor_x = AutoProcessor.from_pretrained(MODEL_ID_X, trust_remote_code=True, use_fast=False)
 model_x = Qwen2_5_VLForConditionalGeneration.from_pretrained(
 MODEL_CHOICES = list(MODELS.keys())
 image_examples = [
     {"query": "Describe the safety measures in the image. Conclude (Safe / Unsafe).", "image": "images/5.jpg", "model": "Lumian-VLR-7B-Thinking"},
     {"query": "Convert this page to doc [markdown] precisely.", "image": "images/3.png", "model": "Typhoon-OCR-3B"},
     {"query": "Convert chart to OTSL.", "image": "images/2.png", "model": "openbmb/MiniCPM-V-4"},
 ]
 def pil_to_data_url(img: Image.Image, fmt="PNG"):
     buf = BytesIO()
     img.save(buf, format=fmt)
     except Exception:
         return 60
 @spaces.GPU(duration=calc_timeout_image)
 def generate_image(
     model_name,
 def noop():
     return None
 THUNDER_SVG = f"""
 <svg viewBox="0 0 24 24" xmlns="http://www.w3.org/2000/svg">
   <path fill="white" d="M13.2 2L5 13h5l-1.2 9L19 10h-5l-.8-8Z"/>
     for m in MODEL_CHOICES
 ])
 css = f"""
 @import url('https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800&family=JetBrains+Mono:wght@400;500;600&display=swap');
 *{{box-sizing:border-box;margin:0;padding:0}}
     box-shadow:0 25px 50px -12px rgba(0,0,0,.6),0 0 0 1px rgba(255,255,255,.03);
 }}
 .app-header{{
+    background:linear-gradient(135deg,#18181b,#1e1e24);border-bottom:1px solid #27272a;
     padding:14px 24px;display:flex;align-items:center;justify-content:space-between;flex-wrap:wrap;gap:12px;
 }}
 .app-header-left{{display:flex;align-items:center;gap:12px}}
 }}
 """
 gallery_js = r"""
 () => {
 function init() {
 }
 """
 with gr.Blocks() as demo:
     hidden_image_b64 = gr.Textbox(value="", elem_id="hidden-image-b64", elem_classes="hidden-input", container=False)
     prompt = gr.Textbox(value="", elem_id="prompt-gradio-input", elem_classes="hidden-input", container=False)
         </div>
         <div class="exp-note">
+            Experimental VLM Suite
         </div>
         <div class="app-statusbar">