Оптимизация инференса на RTX 5090: поддержка 8кГц и проблема утилизации GPU в Triton

by Dzmytry - opened 2 days ago

2 days ago

Добрый день! Внедряем T-ONE для оффлайн-аналитики звонков. Разворачиваем на сервере с NVIDIA RTX 5090 (32GB VRAM).

Столкнулись с двумя проблемами производительности, хотели бы получить совет от разработчиков:

Проблема с 8 кГц. Исходные записи — телефония 8 кГц. Модель требует 16 кГц или нет? Сейчас делаем апсэмплинг на CPU, из-за чего процесс упирается в процессор, а видеокарта простаивает.

Вопрос: Существует ли чекпоинт модели, обученный нативно на 8 кГц? Или планируется ли такой релиз?

Проблема запуска на GPU через Triton. Однако по мониторингу nvidia-smi нагрузка на GPU нулевая, вычисления идут на CPU.
instance_group [ { count: 16, kind: KIND_GPU } ]

Если коротко, то как t-one использовать на gpu?

Будем благодарны за любые рекомендации по архитектуре.

deleted

2 days ago

This comment has been hidden (marked as Off-Topic)

T-Tech org 1 day ago

@Dzmytry
Добрый день!

Поддержка 8 кГц нативная, чекпойнт обучен только на 8 кГц, ничего апсемплить не нужно. Модель требует как раз 8 кГц.
Для запуска на GPU попробуйте воспользоваться инструкцией https://github.com/voicekit-team/T-one/blob/main/docs/triton_inference_server.ru.md, если возникнут проблемы -- напишите issue на github, пожалуйста.

@RootMoscow просьба не дезинформировать других неверными ответами от LLM.

sxdxfan changed discussion status to closed 1 day ago

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment