Nebula XAI

Experience the future artificial intelligence

Myshell OpenSources OpenVoice:短い時間をかけるAIライブラリのクローンを作成するインスタント音声…

MyShell OpenSources OpenVoice:短い時間をかけるAIライブラリをクローニングするインスタント音声…

MyShellには、短いオーディオクリップのみから人間の響きの声を急速に生成する音声を覆うAIライブラリであるOpenSourced OpenVoiceがあります。 2021年12月に導入されたOpenVoiceは、非技術的なユーザー向けに設計されており、ビデオ、オーディオ、ゲーム、その他のクリエイティブプロジェクトの声をカスタマイズしています。 Pythonコードを使用して他のソフトウェアに統合できます。

OpenVoiceのクリエイターは、人々がデジタルコンテンツとどのように相互作用するかに革命をもたらす可能性があると考えています。 「テキストからスピーチは、読み取れない人がテキストにアクセスできるようにするための深いブレークスルーでした」と2月14日のブログ投稿で述べています。 「過去が読書に関するものであれば、未来は聞くことです。OpenVoiceは、作成者がこれまでにないような物語やデジタルキャラクターに命を吹き込むことができます。」

AIライブラリには、ユーザーが選択できるいくつかの音声モデルがあり、英語(複数のアクセント)、スペイン語、中国語、フランス語、イタリア語、日本語、韓国語、ヒンディー語、ロシア語、ポルトガル語など、13の言語と方言をサポートしています。方言)。

OpenVoiceは、3つの異なるタイプの音声オーディオを生成できます。

*** TTS(テキストツースピーチ):**書かれたテキストを話し言葉に変換します。
*** SS(音声統合):**外国語を話す声を合成します。
*** VC(音声クローニング):**ユーザーが提供する短いオーディオクリップからの音声をクローンします。

OpenVoiceの音声クローニングは、生のオーディオ波形をメルスペクトルグラムに変換することで機能し、それが埋め込みに変換されます。

OpenVoiceを使用するには、PIP経由でライブラリをインストールするか、GitHubからリポジトリをクローンします。ライブラリには、スピーチのクローンと合成の関数を備えたPython APIも含まれており、スピーチレートとピッチの変更、および組み込みのサウンドエフェクトライブラリを使用してバックグラウンドノイズを追加します。

OpenVoiceはまだ開発中であり、MyShellは開発者にGitHubでリクエストまたは問題を提出し、議論のためにDiscord Serverに参加することを奨励しています。同社は、音声モデル、言語、エクスポート形式を追加することにより、ライブラリの維持と新機能の開発に取り組んでいます。

MyShellは、オーディオおよび音声人工知能を専門とするソフトウェア会社です。オーディオの復元と強化、音声クローニング、テキストへのスピーチなどのためのサービスを提供します。

See also  GPT-Engineer:AIプロンプトを使用してWebアプリを作成します