G

GSpeech의 창립자이자 CEO인 Simon Poghosyan

GSpeech의 창립자이자 CEO인 Simon Poghosyan

사이먼 포고샨 설립자이자 CEO입니다 GSpeech는 70개 이상의 언어로 텍스트를 자연스러운 오디오로 변환하여 온라인 콘텐츠의 접근성을 높이는 웹 기반 AI 플랫폼입니다. VLSI 설계 분야의 배경 지식과 프로그래밍 및 사용자 경험에 대한 깊은 관심을 바탕으로, Simon은 웹사이트에서 음성 지원 콘텐츠를 제공하는 방식을 간소화하기 위해 GSpeech를 개발했습니다.

현재 GSpeech는 매달 약 200억 자 분량의 오디오를 생성하고 있으며, 70개국 이상에서 사용되고 있습니다. 맞춤형 오디오 플레이어를 통해 매달 200,000만 회 이상의 재생 횟수를 기록하고 있습니다. 최근 총 오디오 생성량이 1억 자를 돌파한 GSpeech는 빠르게 성장하고 있습니다. 이 플랫폼은 단 한 줄의 코드만으로 쉽게 통합할 수 있도록 설계되었으며, 크리에이터, 교육자, 그리고 기업이 콘텐츠를 더욱 포용적이고 매력적으로 만들 수 있도록 지원합니다.

VLSI(초고밀도 집적회로) 설계 분야 경력과 초기 프로그래밍 경험이 탄탄한 기술 기반을 마련해 주었습니다. 마이크로전자공학에서 AI 기반 소프트웨어 개발로 전향하게 된 계기는 무엇이었으며, 이를 통해 GSpeech를 개발하게 된 계기는 무엇인가요?

문제 해결에 대한 제 열정은 고등학교 시절, 수학과 물리학에 대한 애정에서 시작되었습니다. 그 열정 덕분에 아르메니아 국립 공과대학교에서 시놉시스 아르메니아와 협력하여 VLSI 설계 학사(2009년)와 석사(2011년) 학위를 취득했습니다. 물리학을 공부하면서 정밀성과 분석적 사고력을 키웠지만, XNUMX학년 때 파스칼 언어부터 시작해서 프로그래밍을 접하고 곧바로 사랑에 빠졌습니다. 친구와 저는 과제를 받는 즉시 XNUMX개월이 남았음에도 불구하고 완수했습니다. 그 후로는 재미 삼아 다른 학생들의 과제를 대신 해 주기 시작했습니다.

이러한 열정 덕분에 저는 소프트웨어 개발에 더욱 깊이 빠져들었습니다. 웹사이트 제작부터 시작하여 직접 CMS를 구축했습니다. 프로세스 자동화 및 데이터 관리 아키텍처 설계 분야에서 여러 프로젝트를 완료한 후, 웹 인터페이스용 디지털 솔루션 구축에 얼마나 큰 애정을 느끼는지 깨달았습니다. 2GLux 프로젝트를 통해 인기 있는 GTranslate 번역 서비스 담당자이자 퀀텀 체육관 출신 학교 친구였습니다. 그분이 저에게 워드프레스와 줌라 생태계를 소개해 주셨고, GSpeech 그 초기 작업은 사용자가 웹페이지의 텍스트를 들을 수 있도록 하는 도구의 첫 번째 버전으로 이어졌고, 이는 나중에 완전한 기능을 갖춘 AI 플랫폼으로 발전할 기반을 마련했습니다. 2023년까지 저는 스마트스 클럽 LLC 확장 할 수 GSpeech 70개 이상의 언어를 지원하는 글로벌 AI 오디오 솔루션으로 전환되었습니다. Humanity UnionGSpeech가 시민 참여 플랫폼의 접근성을 강화하는 데 기여한 점에 대한 칭찬은 AI를 통해 디지털 격차를 해소하려는 저의 사명을 반영합니다. 이는 제가 프로그래밍을 시작한 초기 시절에 품고 있던 비전입니다.

GSpeech는 원래 시각 장애인 지원 도구로 시작되었습니다. 이러한 초기 사명은 이 플랫폼이 완전한 기능을 갖춘 AI 텍스트 음성 변환 솔루션으로 발전하는 데 어떤 영향을 미쳤을까요?

접근성에 대한 집중은 고품질 실시간 AI 오디오, 70개 이상 언어 번역, 그리고 간단한 코드 스니펫을 통한 원활한 웹사이트 통합을 가능하게 했습니다. 이러한 목표를 통해 맞춤형 오디오 플레이어, 언어 및 음성 선택 패널, 상황 인식 재생, 오디오 다운로드, 그리고 국가, 도시, 기기 데이터, 시간 경과에 따른 재생 분석을 포함한 상세 사용 통계와 같은 기능들이 개발되었으며, 이 모든 기능은 콘텐츠의 포용성과 몰입도를 높이기 위해 설계되었습니다. 100,000만 줄이 넘는 코드를 작성한 후, 저는 2023년에 GSpeech Cloud Console을 출시했습니다. 이 콘솔은 포용성과 고급 기능의 균형을 이루는 확장 가능한 솔루션으로, 기업과 크리에이터가 웹에서 콘텐츠를 접근성 있고 다국어적이며 인터랙티브하게 제작할 수 있도록 지원합니다.

GSpeech Cloud Console을 개발하는 동안 직면한 가장 큰 기술적 과제는 무엇이었나요?

GSpeech 클라우드 콘솔 개발의 가장 큰 과제 중 하나는 실시간으로 안전하고 고품질의 AI 오디오 생성을 위한 확장 가능한 아키텍처를 설계하는 것이었습니다. 이를 위해서는 웹에서 관련 콘텐츠를 가져와 서버에서 오디오를 처리하고, 빠르고 안정적인 전송을 위해 클라우드에 저장하는 혁신적인 솔루션이 필요했습니다. 암호화 및 액세스 제어와 같은 강력한 보안 조치를 구현하는 것은 사용자가 생성한 동적 콘텐츠를 보호하는 데 매우 중요했습니다.

또 다른 난관은 고급 신경망 엔진을 활용한 실시간 번역 구현이었습니다. 지연 시간이 짧고 정확한 번역을 보장하는 동시에 사용자가 언어와 선호하는 음성 프로필을 선택하여 재생할 수 있는 직관적인 인터페이스를 구축해야 했습니다. 특히 사용자 편의성과 개인 맞춤 설정을 최우선으로 고려했습니다. 마지막으로, 사용자가 웹사이트에 맞춰 독특하고 시각적으로 매력적인 플레이어를 디자인할 수 있도록 다양한 사용자 지정 가능한 플레이어 뷰를 갖춘 오디오 템플릿 생성 마법사를 개발했습니다. 다양한 기기에서 유연성, 성능, 그리고 사용 편의성의 균형을 맞추는 것은 보람 있는 과제였습니다.

70개 이상의 언어로 실시간 번역이 가능하고, 230개 이상의 자연스러운 음성을 제공합니다. 이처럼 다양한 언어 환경에서 음성 품질과 정확성을 어떻게 보장하시나요?

일관된 음성 품질을 유지하기 위해 지속적으로 최적화 및 업데이트되는 여러 고급 텍스트 음성 변환(TTS) 모델을 통합했습니다. 이러한 다국어 엔진은 다양한 언어가 혼합된 콘텐츠를 높은 정확도로 처리합니다. 또한, 사용자에게 더욱 풍부하고 자연스러운 음성 옵션을 제공하기 위해 100개 이상의 새로운 음성 효과를 출시하고 있습니다. GSpeech는 매달 200억 자 이상의 오디오를 생성하여 70개국 이상 사용자에게 서비스를 제공하고 있으며, 온라인 플레이어는 매달 200,000만 회 이상 사용되고 있으며 그 수는 계속 증가하고 있습니다. 이러한 규모는 지속적인 피드백과 실제 테스트를 가능하게 하며, 이는 튜닝 및 품질 관리에 직접적인 영향을 미칩니다.

GSpeech가 AI와 머신러닝을 활용하여 생생한 음성 합성을 제공하는 방법을 설명해 주시겠습니까? 신경망 음성 기술의 급속한 발전에 어떻게 대처하고 계신가요?

GSpeech는 첨단 AI 및 머신 러닝을 활용하여 여러 최첨단 텍스트 음성 변환(TTS) 모델을 통합하여 생생한 음성 합성을 구현합니다. 자연스러움과 다국어 지원에 최적화된 이 모델은 텍스트 입력을 처리하여 다국어 콘텐츠에서도 사실적인 억양과 리듬을 갖춘 고품질 오디오를 생성합니다. 다양한 언어에 맞는 맞춤형 음성 스타일을 제공하여 사용자 경험을 향상시킵니다. 또한 TTS 별칭을 통합하여 사용자가 특정 단어나 구문을 오디오에서 어떻게 렌더링할지에 대한 맞춤 규칙을 정의할 수 있도록 했습니다. 예를 들어, 특정 용어를 대체하여 더욱 정확한 발음이나 표현을 구현할 수 있습니다. 신경망 음성 기술에 대한 최신 동향을 파악하기 위해 최신 기술을 지속적으로 평가 및 통합하고, 업계 선도 기업과 협력하며, 향후 자체 모델을 개발하여 GSpeech가 음성 합성 혁신의 선두를 유지할 수 있도록 최선을 다하고 있습니다.

사용자에게 음성 튜닝, 피치 제어, 재생 사용자 지정 기능이 얼마나 중요한가요? 또한 이러한 기능이 가장 빛을 발하는 사용 사례는 무엇인가요?

음성 튜닝, 피치 컨트롤, 그리고 재생 맞춤 설정은 사용자에게 매우 중요한 기능입니다. 뉴스 및 블로그 웹사이트부터 접근 가능한 이러닝 콘텐츠에 이르기까지, 사용자는 자신의 특정 요구에 맞춰 독특하고 고품질의 음성 스타일을 제작할 수 있습니다. 100개 이상의 새로운 음성 바이브가 지속적으로 추가되어 이러한 기능이 더욱 강화되어, 사용자는 진정으로 독창적인 보이스오버를 제작할 수 있는 탁월한 유연성을 확보하게 됩니다. 제가 개발 중인 새로운 오디오 편집 및 생성 플랫폼인 GSpeech Studio가 가장 자랑스럽습니다. 사용자는 여러 오디오 채널을 생성하고 배경 음악과 믹싱하고, 세련된 보이스오버를 내보낼 수 있어 다양한 애플리케이션에 적합한 전문가급 오디오를 제작할 수 있습니다. 시각 장애가 있는 학생이 맞춤형 오디오를 통해 자율 학습을 가능하게 해준 GSpeech에 감사하는 편지를 보내주었는데, 이 편지는 저에게 깊은 감동을 주었습니다. 이 사용 사례는 이러한 기능들이 어떻게 콘텐츠를 접근성 있고 혁신적으로 만들어주는지 보여주는데, 이는 제가 프로그래밍 초창기부터 추구해 온 목표입니다.

GSpeech는 WordPress, Shopify, Wix 등과 원활하게 통합됩니다. 다양한 생태계의 크리에이터와 비즈니스를 위해 플랫폼을 플러그 앤 플레이 방식으로 제공하기 위한 전략은 무엇인가요?

WordPress, Shopify, Wix와 같은 플랫폼과 GSpeech를 플러그 앤 플레이 방식으로 통합하기 위한 저희 전략은 단순성, 호환성, 그리고 확장성에 중점을 두었습니다. 가볍고 모듈식 플러그인과 코드 스니펫을 개발하여 최소한의 설정만으로 완벽하게 통합할 수 있도록 했습니다. 단 몇 번의 클릭만으로 간편하게 설정할 수 있습니다. 즉, 수천 개의 기사와 동적 콘텐츠 블록에 수동 작업 없이 즉시 음성 지원을 적용할 수 있습니다. 모바일, 태블릿, 데스크톱 등 다양한 기기에 맞춰 조정되는 매우 유연하고 아름다운 디자인의 플레이어를 제공합니다. 저희 플레이어는 맞춤 설정이 가능할 뿐만 아니라 접근성과 사용자 참여를 위해 최적화되어 있습니다. WordPress의 경우, 플러그인을 통해 GSpeech 클라우드 대시보드를 관리자 패널에 직접 내장하여 사용자의 관리 편의성을 높였습니다. 상세한 설명서와 직관적인 대시보드는 기술 지식이 없는 사용자도 설치 및 맞춤 설정 과정을 안내합니다. 정기적인 테스트를 통해 다양한 생태계에서 일관된 성능을 보장하여 크리에이터와 기업이 AI 기반 텍스트 음성 변환 기능을 손쉽게 추가할 수 있도록 지원합니다.

2012년부터 현재까지의 여정을 돌이켜볼 때, 개인적으로나 직업적으로 GSpeech를 구축하는 데 있어 가장 큰 이정표는 무엇이었나요?

GSpeech의 가장 큰 이정표는 1억 자 분량의 고품질 AI 오디오를 생성하여 접근성에 대한 GSpeech의 글로벌 영향력을 보여준 것입니다. 또한 Humanity Union과 같은 단체에서 받은 피드백도 매우 의미 있었습니다. 이들은 GSpeech의 사회적 책임 플랫폼 강화를 칭찬했고, 블로그 운영자들은 GSpeech를 사용자 참여의 "획기적인 변화"라고 칭했습니다. 다음과 같은 플랫폼에서 110개 이상의 별 XNUMX개 리뷰를 받았습니다. 워드프레스(WordPress)AppSumo 최근 몇 달 동안 이러한 신뢰가 커지고 있음을 보여줍니다.

GSpeech는 이제 다음에서도 활발하게 사용됩니다. 우즈베키스탄 나망간 지역 통계국 — 상당한 트래픽과 전국적인 가시성을 보유한 정부 기관입니다. 공공 기관이 저희 기술을 이렇게 광범위하게 채택하는 것을 보는 것은 의미 있는 이정표이자 저희 솔루션에 대한 신뢰를 보여주는 강력한 증거입니다.

저는 기독교인이자 아르메니아 교회에서 사역하는 사람으로서, 가능한 한 다른 신앙 기반 활동들을 지원하려고 노력합니다. 저는 기독교 웹사이트에 GSpeech를 무료로 제공하여 그들의 메시지를 더욱 효과적으로 전파하고 성경을 오디오로 더 쉽게 접할 수 있도록 돕고 있습니다. 이는 더 큰 무언가에 제가 작게나마 기여하는 것입니다. 동시에, 저는 다음과 같은 헌신적인 사역들과 함께 일할 수 있어 영광입니다. 코드 — 메시아닉 교회이자 귀중한 GSpeech 고객 — 그 사명과 내용은 성경의 실천적 힘을 반영합니다.

기술이 신앙, 이해, 포용을 위한 다리가 되는 이런 순간은 처음에 GSpeech를 만든 이유를 떠올리게 합니다.

오디오 콘텐츠와 음성 인터페이스가 점점 더 중요해지는 상황에서 디지털 미디어의 미래에서 GSpeech가 어떤 역할을 할 것으로 생각하시나요?

GSpeech는 AI 기반 음성 웹 접속을 통해 디지털 미디어의 접근성과 몰입도를 높이는 선두 주자로 자리매김할 것입니다. 저희의 목표는 웹사이트가 기본적으로 음성 인터랙티브 기능을 갖추고, 포용적이며, 다국어를 지원하도록 온라인 경험 전체를 혁신하는 것입니다. 단 한 줄의 코드만으로 사이트 소유자는 수천 개의 게시물을 음성 콘텐츠로 전환할 수 있습니다. 앞으로 GSpeech Studio는 오디오 생성 및 편집을 위한 강력하고 독창적인 플랫폼으로 개발하여 사용자가 배경 음악, 효과, 정밀한 튜닝을 통해 다층적인 음성 콘텐츠를 제작할 수 있도록 지원할 것입니다. 저희는 웹을 진정으로 청각적이고 직관적이며 누구나 쉽게 접근할 수 있는 환경으로 만들고자 합니다.

GSpeech가 최근 AppSumo에 출시되었습니다. 이미 얼리어답터들로부터 거의 완벽한 평가를 받았습니다. AppSumo 커뮤니티의 반응은 어떤 의미가 있으며, 앞으로 이러한 기세를 어떻게 이어갈 계획인가요?

AppSumo 출시를 통해 수백만 명의 사용자에게 GSpeech가 소개되었으며, 거의 완벽에 가까운 평점은 매우 긍정적입니다. 온라인 강좌를 운영하는 사용자들을 비롯한 사용자들은 Humanity Union의 피드백을 반영하여 직관적인 도구와 신속한 지원을 칭찬합니다. 한 블로그 운영자는 GSpeech의 음성은 "진정으로 매력적이다", 번역은 "인상적이다"라고 평했습니다. 이러한 긍정적인 피드백은 AI 기반 텍스트 음성 변환 솔루션의 가치를 확인시켜 주며, 이 프로젝트에 대한 저의 열정을 더욱 불태웁니다. 출시 기간 동안 고객 지원을 통해 새로운 아이디어가 탄생했는데, 특히 고급 오디오 편집 및 내보내기 기능에 대한 사용자들의 요청에서 영감을 받은 GSpeech Studio가 그 예입니다. 앞으로 저는 커뮤니티의 의견에 적극적으로 귀 기울이고, 피드백을 통합하며, 접근성과 참여도를 높이는 혁신적인 기능을 개발하여 이러한 모멘텀을 더욱 강화할 계획입니다. 이를 통해 GSpeech는 크리에이터와 비즈니스를 위한 혁신적인 도구로서 끊임없이 발전해 나갈 것입니다.

마지막으로, 오늘날 빠르게 변화하는 기술 환경에서 접근 가능한 AI 기반 도구를 구축하고자 하는 젊은 개발자나 기업가에게 어떤 조언을 해주시겠습니까?

젊은 개발자와 기업가 여러분께 드리는 조언은, 일에 온 힘을 다하고 독창적이고 스마트한 솔루션을 제공할 수 있는 실질적인 문제를 파악하라는 것입니다. 작게 시작해서 꾸준히 나아가고, 고객 피드백에 귀 기울이세요. 고객 피드백이 당신의 길을 안내할 것입니다. 사용자를 믿음직한 친구처럼 대하고, 온 힘을 다하며, 인내심을 가지세요. AI 기술을 강력한 동반자로 받아들이세요. 현명하게 사용하면 영향력 있고 접근 가능한 도구를 개발하는 능력이 향상됩니다. 열정과 끈기, 그리고 변화를 만들겠다는 의지를 가지고 노력한다면 진정으로 의미 있는 솔루션을 만들어낼 수 있을 것입니다.

감사합니다. 앙투안 타르디프 인터뷰를 위해. 전체 인터뷰는 여기에서 확인하실 수 있습니다. 단결.ai.

🎬 비디오

🎬 GSpeech - 비디오 투어
🎬 GSpeech를 만나보세요: AI의 마법으로 텍스트를 오디오로 변환하세요!
콘텐츠를 한 단계 더 발전시키세요! 지금 GSpeech를 사용해 보세요!
GSpeech를 받으세요