Spaces:

tenmenbot
/

interview-chat

Sleeping

tenmenbot commited on Jun 8, 2025

Commit

7eb64ea

verified ·

1 Parent(s): 5c389b4

Upload app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ import os
 import numpy as np
 import faiss
 from sentence_transformers import SentenceTransformer
-from transformers import pipeline
 # 記事フォルダ読み込み
 articles_dir = "articles"
@@ -31,8 +31,16 @@ for fname in os.listdir(articles_dir):
 index = faiss.IndexFlatL2(384)
 index.add(np.array(vectors))
-# 要約モデル（ken11/japanese-summary-model）
-summarizer = pipeline("summarization", model="ken11/japanese-summary-model")
 # チャットボット関数
 def chat(query):
@@ -42,10 +50,8 @@ def chat(query):
     retrieved_titles = [titles[i] for i in I[0]]
     retrieved_urls = [urls[i] for i in I[0]]
-    context = "\n\n".join(retrieved_texts)[:1000]  # BARTは長文に弱いので最大1000文字に制限
-    prompt = f"{context}\n\n質問：{query}\nこの情報をもとに簡潔に回答してください。"
-    summary = summarizer(prompt, max_length=128, min_length=30, do_sample=False)[0]["summary_text"]
     links = "\n".join([f"🔗 [{retrieved_titles[i]}]({retrieved_urls[i]})" for i in range(len(retrieved_titles))])
     return f"{summary}\n\n参考記事：\n{links}"

 import numpy as np
 import faiss
 from sentence_transformers import SentenceTransformer
+from transformers import T5Tokenizer, T5ForConditionalGeneration
 # 記事フォルダ読み込み
 articles_dir = "articles"
 index = faiss.IndexFlatL2(384)
 index.add(np.array(vectors))
+# T5要約モデル
+tokenizer = T5Tokenizer.from_pretrained("sonoisa/t5-base-japanese")
+t5_model = T5ForConditionalGeneration.from_pretrained("sonoisa/t5-base-japanese")
+def generate_summary(text):
+    input_text = "summarize: " + text.replace("\n", " ")
+    input_ids = tokenizer.encode(input_text, return_tensors="pt", max_length=512, truncation=True)
+    output_ids = t5_model.generate(input_ids, max_length=128, min_length=32, do_sample=False)
+    summary = tokenizer.decode(output_ids[0], skip_special_tokens=True)
+    return summary
 # チャットボット関数
 def chat(query):
     retrieved_titles = [titles[i] for i in I[0]]
     retrieved_urls = [urls[i] for i in I[0]]
+    context = "\n\n".join(retrieved_texts)[:1000]
+    summary = generate_summary(context)
     links = "\n".join([f"🔗 [{retrieved_titles[i]}]({retrieved_urls[i]})" for i in range(len(retrieved_titles))])
     return f"{summary}\n\n参考記事：\n{links}"