Оптимизация инференса на RTX 5090: поддержка 8кГц и проблема утилизации GPU в Triton

#3
by Dzmytry - opened

Добрый день! Внедряем T-ONE для оффлайн-аналитики звонков. Разворачиваем на сервере с NVIDIA RTX 5090 (32GB VRAM).

Столкнулись с двумя проблемами производительности, хотели бы получить совет от разработчиков:

  1. Проблема с 8 кГц. Исходные записи — телефония 8 кГц. Модель требует 16 кГц или нет? Сейчас делаем апсэмплинг на CPU, из-за чего процесс упирается в процессор, а видеокарта простаивает.

Вопрос: Существует ли чекпоинт модели, обученный нативно на 8 кГц? Или планируется ли такой релиз?

  1. Проблема запуска на GPU через Triton. Однако по мониторингу nvidia-smi нагрузка на GPU нулевая, вычисления идут на CPU.
    instance_group [ { count: 16, kind: KIND_GPU } ]

Если коротко, то как t-one использовать на gpu?

Будем благодарны за любые рекомендации по архитектуре.

deleted
This comment has been hidden (marked as Off-Topic)
T-Tech org

@Dzmytry
Добрый день!

  1. Поддержка 8 кГц нативная, чекпойнт обучен только на 8 кГц, ничего апсемплить не нужно. Модель требует как раз 8 кГц.

  2. Для запуска на GPU попробуйте воспользоваться инструкцией https://github.com/voicekit-team/T-one/blob/main/docs/triton_inference_server.ru.md, если возникнут проблемы -- напишите issue на github, пожалуйста.

@RootMoscow просьба не дезинформировать других неверными ответами от LLM.

sxdxfan changed discussion status to closed

Sign up or log in to comment