lam-tts-jp-80m

日本語専用TTSモデルです

トークナイザーを大幅に修正している関係で日本語以外はしゃべれません

80Mパラメータでのvoice cloningを目指しています

LARoPEinterleaved-MPoPEを組み合わせた独自PEを実装しています

セットアップ

pip install torch torchaudio transformers alkana e2k neucodec pyopenjtalk-plus[onnxruntime] miniaudio

推論

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("tsukemono/lam-tts-jp-80m", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("tsukemono/lam-tts-jp-80m", trust_remote_code=True).eval()

prompt_ids, position_ids = tokenizer.encode_all(
    text="ここに喋らせたいテキスト",
    audio_reference="参照音声.mp3",
    speaking_time=4,  # 何秒喋らすか
    # speed=15,  # ひらがな換算での一秒間の発話文字数 speaking_timeがあるときはそちらを優先
    return_tensors="pt",
)

with torch.inference_mode():
    generated = model.generate(
        input_ids=prompt_ids.reshape(1, -1),
        position_ids=position_ids.reshape(1, 2, -1),
        repetition_penalty=1.1,
        do_sample=True,
        temperature=0.8,
        top_k=50,
        top_p=0.99,
        min_p=0.0
    )
tokenizer.decode_audio(generated[0, len(prompt_ids):], "output.wav")

サンプル

ライセンス

学習元(llm-jp-3−150m)から以下の変更を行いました

  • トークナイザーの削除と追加と番号の変更
  • トークナイザーに対し独自コードの追加
  • モデルのレイヤーの削除
  • モデルの独自コードの追加
  • モデルの重みの変更

Apache License, Version 2.0

Downloads last month
116
Safetensors
Model size
84.2M params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for tsukemono/lam-tts-jp-80m

Finetuned
(3)
this model

Papers for tsukemono/lam-tts-jp-80m