具体的にどのような使い方を想定されているかによりますが、
かな漢字混じり文→単純テキスト→wavファイル変換→再生
の各機能ごとに分解して探せば見つけやすいのではと思います。Pythonとかでサクッとスクリプト作って各機能を連携させる。
最重要なのはテキスト→wav変換ですが、VOICEBOXのOSS版が第一選択と思われますが、これは検索ですぐに出てくるので、これをスルーしてるのは何か理由がありますか?
音声関係はエンジンよりも音素データとかキャラクターとかに規制が掛かってて注意が必要なんですが…
VOICEVOX の他にChatGPTに聞いてみたら、
Open JTalk、Mozilla/Coqui TTS、Festival/Flite、Espeak / NGも候補として出してました…が、本当にOSSか?はちょっと怪しいものも。