{"id":"https://openalex.org/W3095688477","doi":"https://doi.org/10.21437/interspeech.2020-3167","title":"Multi-Speaker Text-to-Speech Synthesis Using Deep Gaussian Processes","display_name":"Multi-Speaker Text-to-Speech Synthesis Using Deep Gaussian Processes","publication_year":2020,"publication_date":"2020-10-25","ids":{"openalex":"https://openalex.org/W3095688477","doi":"https://doi.org/10.21437/interspeech.2020-3167","mag":"3095688477"},"language":"en","primary_location":{"id":"doi:10.21437/interspeech.2020-3167","is_oa":false,"landing_page_url":"https://doi.org/10.21437/interspeech.2020-3167","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Interspeech 2020","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5102751752","display_name":"Kentaro Mitsui","orcid":"https://orcid.org/0000-0002-3551-9932"},"institutions":[{"id":"https://openalex.org/I74801974","display_name":"The University of Tokyo","ror":"https://ror.org/057zh3y96","country_code":"JP","type":"education","lineage":["https://openalex.org/I74801974"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Kentaro Mitsui","raw_affiliation_strings":["The University of Tokyo, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"The University of Tokyo, Japan","institution_ids":["https://openalex.org/I74801974"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5024181978","display_name":"Tomoki Koriyama","orcid":"https://orcid.org/0000-0002-8347-5604"},"institutions":[{"id":"https://openalex.org/I74801974","display_name":"The University of Tokyo","ror":"https://ror.org/057zh3y96","country_code":"JP","type":"education","lineage":["https://openalex.org/I74801974"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Tomoki Koriyama","raw_affiliation_strings":["The University of Tokyo, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"The University of Tokyo, Japan","institution_ids":["https://openalex.org/I74801974"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5003814223","display_name":"Hiroshi Saruwatari","orcid":"https://orcid.org/0000-0003-0876-5617"},"institutions":[{"id":"https://openalex.org/I74801974","display_name":"The University of Tokyo","ror":"https://ror.org/057zh3y96","country_code":"JP","type":"education","lineage":["https://openalex.org/I74801974"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Hiroshi Saruwatari","raw_affiliation_strings":["The University of Tokyo, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"The University of Tokyo, Japan","institution_ids":["https://openalex.org/I74801974"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I74801974"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":3,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"2032","last_page":"2036"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9965000152587891,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12031","display_name":"Speech and dialogue systems","score":0.9933000206947327,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7228286266326904},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.7073853015899658},{"id":"https://openalex.org/keywords/speaker-recognition","display_name":"Speaker recognition","score":0.5483057498931885},{"id":"https://openalex.org/keywords/speech-synthesis","display_name":"Speech synthesis","score":0.4993448257446289},{"id":"https://openalex.org/keywords/speaker-diarisation","display_name":"Speaker diarisation","score":0.4467789828777313},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4405985474586487},{"id":"https://openalex.org/keywords/natural-language-processing","display_name":"Natural language processing","score":0.416596382856369}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7228286266326904},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.7073853015899658},{"id":"https://openalex.org/C133892786","wikidata":"https://www.wikidata.org/wiki/Q1145189","display_name":"Speaker recognition","level":2,"score":0.5483057498931885},{"id":"https://openalex.org/C14999030","wikidata":"https://www.wikidata.org/wiki/Q16346","display_name":"Speech synthesis","level":2,"score":0.4993448257446289},{"id":"https://openalex.org/C149838564","wikidata":"https://www.wikidata.org/wiki/Q7574248","display_name":"Speaker diarisation","level":3,"score":0.4467789828777313},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4405985474586487},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.416596382856369}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.21437/interspeech.2020-3167","is_oa":false,"landing_page_url":"https://doi.org/10.21437/interspeech.2020-3167","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Interspeech 2020","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.46000000834465027,"id":"https://metadata.un.org/sdg/4","display_name":"Quality Education"}],"awards":[{"id":"https://openalex.org/G7792083000","display_name":null,"funder_award_id":"JP19K20292","funder_id":"https://openalex.org/F4320334764","funder_display_name":"Japan Society for the Promotion of Science"}],"funders":[{"id":"https://openalex.org/F4320334764","display_name":"Japan Society for the Promotion of Science","ror":"https://ror.org/00hhkn466"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":21,"referenced_works":["https://openalex.org/W66306528","https://openalex.org/W1492383498","https://openalex.org/W1522301498","https://openalex.org/W1866206747","https://openalex.org/W1984905644","https://openalex.org/W2102003408","https://openalex.org/W2167608136","https://openalex.org/W2471520273","https://openalex.org/W2519648275","https://openalex.org/W2624871570","https://openalex.org/W2759925408","https://openalex.org/W2787685498","https://openalex.org/W2808706139","https://openalex.org/W2921135010","https://openalex.org/W2963691546","https://openalex.org/W2969049672","https://openalex.org/W2972595148","https://openalex.org/W2972598731","https://openalex.org/W2972956431","https://openalex.org/W4293459451","https://openalex.org/W4391602018"],"related_works":["https://openalex.org/W2206035908","https://openalex.org/W4297807400","https://openalex.org/W1491159402","https://openalex.org/W4313854686","https://openalex.org/W2144208207","https://openalex.org/W4389984014","https://openalex.org/W1509309911","https://openalex.org/W1940231550","https://openalex.org/W2118860825","https://openalex.org/W2096510939"],"abstract_inverted_index":{"Multi-speaker":[0],"speech":[1,43,164],"synthesis":[2,44],"is":[3,36,52,69,96,111,135],"a":[4,12,39,50,53,168],"technique":[5],"for":[6,41],"modeling":[7],"multiple":[8],"speakers'":[9],"voices":[10],"with":[11,99],"single":[13],"model.Although":[14],"many":[15],"approaches":[16],"using":[17,45,74],"deep":[18,46,54,82],"neural":[19],"networks":[20],"(DNNs)":[21],"have":[22],"been":[23],"proposed,":[24],"DNNs":[25],"are":[26,147],"prone":[27],"to":[28,63,71,118],"overfitting":[29],"when":[30],"the":[31,79,91,105,120,123,128,140,142,158,171,177,180,184],"amount":[32,129],"of":[33,56,81,93,109,122,130],"training":[34],"data":[35,131,143],"limited.We":[37],"propose":[38],"framework":[40],"multi-speaker":[42,163],"Gaussian":[47,83],"processes":[48],"(DGPs);":[49],"DGP":[51,159,181],"architecture":[55],"Bayesian":[57],"kernel":[58],"regressions":[59],"and":[60,103,138,151,160],"thus":[61],"robust":[62],"overfitting.In":[64],"this":[65,89],"framework,":[66],"speaker":[67,75,95,134],"information":[68],"fed":[70],"duration/acoustic":[72],"models":[73,87],"codes.We":[76],"also":[77,174],"examine":[78],"use":[80],"process":[84],"latent":[85],"variable":[86],"(DGPLVMs).In":[88],"approach,":[90],"representation":[92],"each":[94,133],"learned":[97],"simultaneously":[98],"other":[100],"model":[101],"parameters,":[102],"therefore":[104],"similarity":[106],"or":[107],"dissimilarity":[108],"speakers":[110,146],"considered":[112],"efficiently.We":[113],"experimentally":[114],"evaluated":[115],"two":[116],"situations":[117],"investigate":[119],"effectiveness":[121],"proposed":[124],"methods.In":[125],"one":[126],"situation,":[127],"from":[132,144],"balanced":[136],"(speaker-balanced),":[137],"in":[139,170,183],"other,":[141],"certain":[145],"limited":[148],"(speaker-imbalanced).":[149],"Subjective":[150],"objective":[152],"evaluation":[153],"results":[154],"showed":[155],"that":[156,176],"both":[157],"DG-PLVM":[161],"synthesize":[162],"more":[165],"effective":[166],"than":[167],"DNN":[169],"speaker-balanced":[172],"situation.We":[173],"found":[175],"DGPLVM":[178],"outperforms":[179],"significantly":[182],"speakerimbalanced":[185],"situation.":[186]},"counts_by_year":[{"year":2022,"cited_by_count":1},{"year":2021,"cited_by_count":2}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}