Nebula XAI

Myshell Open-Sources OpenVoice : 짧은 시간이 걸리는 즉각적인 음성 복제 AI 라이브러리 …

February 9, 2024

김 민준

1–2 minutes

MyShell Open-Sources OpenVoice : 짧은 시간이 걸리는 즉각적인 음성 복제 AI 라이브러리 …

MyShell에는 짧은 오디오 클립에서만 인간의 소리를내는 목소리를 빠르게 생성하는 음성 클로닝 AI 라이브러리 인 Open-Sourced OpenVoice가 있습니다. 2021 년 12 월에 소개 된 OpenVoice는 비 기술적 인 사용자를 위해 비디오, 오디오, 게임 및 기타 창의적인 프로젝트를위한 음성을 사용자 정의하도록 설계되었습니다. Python 코드를 사용하여 다른 소프트웨어에 통합 할 수 있습니다.

OpenVoice의 제작자는 사람들이 디지털 컨텐츠와 상호 작용하는 방식에 혁명을 일으킬 가능성이 있다고 생각합니다. 이 회사는 2 월 14 일 블로그 게시물에서 “텍스트 음성은 읽을 수없는 사람들이 텍스트에 액세스 할 수있게하는 데 큰 돌파구였습니다.”라고 말했다. “과거가 독서에 관한 것이라면, 미래는 듣는 것에 관한 것입니다. OpenVoice는 제작자가 전례없는 이야기와 디지털 캐릭터에 생명을 불어 넣을 수있게 해줄 것입니다.”

AI 라이브러리에는 사용자가 선택할 수있는 몇 가지 음성 모델이 있으며 영어 (다중 악센트), 스페인어, 중국어, 프랑스어, 독일어, 일본어, 한국, 힌디어, 러시아어 및 포르투갈어를 포함한 13 개의 언어 및 방언을 지원합니다. 방언).

OpenVoice는 세 가지 유형의 음성 오디오를 생성 할 수 있습니다.

*** tts (텍스트 음성) : ** 텍스트를 음성으로 변환합니다.
*** SS (음성 합성) : ** 외국어를 말하는 목소리를 합성합니다.
*** VC (음성 복제) : ** 사용자가 제공 한 짧은 오디오 클립에서 음성을 복제합니다.

OpenVoice의 음성 클로닝은 원시 오디오 파형을 Mel-Spectrogram으로 변환 한 다음 임베딩으로 변환하여 작동합니다.

OpenVoice를 사용하려면 PIP를 통해 라이브러리를 설치하거나 GitHub에서 저장소를 복제하십시오. 도서관에는 또한 연설 복제 및 합성, 말하기 속도 및 피치 변경 및 내장 음향 효과 라이브러리를 사용하여 배경 노이즈를 추가하는 기능을 갖춘 Python API가 포함되어 있습니다.

OpenVoice는 여전히 개발 중이며 MyShell은 개발자가 GITHUB에 요청 또는 문제를 제출하고 Discord 서버에 참여하여 토론을하도록 권장합니다. 이 회사는 더 많은 음성 모델, 언어 및 수출 형식을 추가하여 라이브러리를 유지하고 새로운 기능을 개발하기 위해 노력하고 있습니다.

Myshell은 오디오 및 연설 인공 지능을 전문으로하는 소프트웨어 회사입니다. 오디오 복원 및 향상, 음성 복제, 텍스트 음성 연설 등을위한 서비스를 제공합니다.

Myshell Open-Sources OpenVoice : 짧은 시간이 걸리는 즉각적인 음성 복제 AI 라이브러리 …

Related posts: