크게 2가지의 시행착오(삽질)가 있었다.

 

1.Google Cloude Text-2-Speech API 연계시 문제

2.N8N에서 Google api 페라미터 설정 문제

3.생성된 Binanry 실행(구동) 문제


 

1. 노드 구성

: text 노드에서 샘플 데이터를 가져와서 음성으로 변환하는 작업을 실험하고자 했다.

: claude.ai 한테 아래 프롬프트를 넣으면, n8n에서 로딩할 json파일을 생성해준다.(위의 언급한 3번의 문제를 해결하기 위해, 아래 캡쳐는 json2binary라는 노드를 수동으로 추가한 상황이다)

더보기

n8n에서 샘플 text 파일->구글 음성변환하는 테스트해보고 싶어. n8n 노드를 구성하는 json파일을 구성해줘

 

2. 구글 cloude text-to-speech API 작업

  1) google cloude console에 진입

  2) text-to-speech API 사용 추가 (text to speech 검색 후 사용(?)클릭, 아래는 사용적용후의 캡쳐)

 

    - 카드 정보를 필수로 입력해야 테스트 사용이 가능(일단 등록하고, 향후 중지하거나 제거하면됨)

    - 처음에는 300$의 쿠폰을 주고 3개월간 사용이 가능하다. 

    - 기본 음성모델의 경우 100만자당 4$씩 차감된다! 

        * google text-to-speech 장단점 :

           (장점) 모델별로 성능이 뛰어난 모델 취사 선택 가능, 초기 무료 사용권 제공

           (단점) 따라할 수 있는 레퍼런스(다른 블로거들의 글)가 작은듯?

 

   3) API 사용권한 추가 [삽질 1]

     3.1) google cloude api 종류가 딱 맞아 떨어지는게 없음 -> Google Cloude Natural Language account로 선택

     3.2) 추가한 권한정보(client id, secret)을 넣고 하단에 sign in google을 클릭하는데 400,401,403등 오류가 발생

     3.3) 구글 인증정보에서 두가지 추가: 리다이렉션 주소, 테스트 계정

      - 그런데, 이후에도 연결할수 없다고 오류가 발생해서 테스트 계정(메일주소) 추가

 

 

3. n8n 노드 작업(google text 2 speech 연동)

 3.1) 인증 추가: Google Cloude Nature Language account 로 유형 추가(위에 캡쳐 참고)

 3.2) 설정정보: POST방식, JSON 페라미터 등 설정했으나 오류발생(json 페라미터는 claude.ai 가 만들어준거 사용)

- 실행해보면, 페라미터 오류가 발생하여, 구글 스펙을 찾아봐야함

 : https://cloud.google.com/text-to-speech/docs/create-audio-text-command-line?hl=ko

 

빠른 시작: 명령줄을 사용하여 텍스트에서 오디오 만들기  |  Cloud Text-to-Speech API  |  Google Cloud

명령줄을 사용하여 텍스트에서 오디오를 만들도록 Text-to-Speech에 요청합니다.

cloud.google.com

 

       3.3) 예제로 생성된 JSON을 드래그하여 가져옴, body설정을 using JSON으로 변경 [삽질 2]

 

       --> text를 오디오로 변경성공!

 

     3.4) json으로 생성되어서, binary로 변경저장해야(mp3) 내가 들어볼수있다! [삽질 3]

        : 역시나 chatgpt나 claude.ai한테 물어보면 스크립트 생성해줌

        : code 노드를 하나 추가하고, 자바스크립트를 넣어주면 됨!

        --> 실행해보면 작업성공! 다운로드 받아서 변환된 음성을 들어볼수 있다.

   

 

 

* 일단 여기까지 테스트를 끝냈다.

* todo:

 1) 샘플 text를 json전체로 만들어서 돌려봤는데, 개별 페라미터로 바꾸고 + 노드간 input/ouput으로 연결되도록 추가 설정

 2) 생성된 샘플을 들어보면 너무 품질이 떨어지는 느낌(너무 빠르고 자연스럽게 들리지가 않음)

    - google text-to-speech 모델 종류, 남성/여성 type, 속도 같은 페라미터를 조정해서 자연스러운 case를 수동으로 조정해야할듯

speech.mp3
0.08MB

 

+ Recent posts