{"id":"https://openalex.org/W2963912679","doi":"https://doi.org/10.21437/interspeech.2018-1791","title":"Multimodal Speech Synthesis Architecture for Unsupervised Speaker Adaptation","display_name":"Multimodal Speech Synthesis Architecture for Unsupervised Speaker Adaptation","publication_year":2018,"publication_date":"2018-08-28","ids":{"openalex":"https://openalex.org/W2963912679","doi":"https://doi.org/10.21437/interspeech.2018-1791","mag":"2963912679"},"language":"en","primary_location":{"id":"doi:10.21437/interspeech.2018-1791","is_oa":false,"landing_page_url":"https://doi.org/10.21437/interspeech.2018-1791","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Interspeech 2018","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://www.research.ed.ac.uk/en/publications/707b3ddb-49ee-4cf6-a2c5-7e9cc826606c","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5002145453","display_name":"Hieu-Thi Luong","orcid":"https://orcid.org/0000-0002-4772-5995"},"institutions":[{"id":"https://openalex.org/I184597095","display_name":"National Institute of Informatics","ror":"https://ror.org/04ksd4g47","country_code":"JP","type":"facility","lineage":["https://openalex.org/I1319490839","https://openalex.org/I184597095","https://openalex.org/I4210158934"]}],"countries":["JP"],"is_corresponding":true,"raw_author_name":"Hieu-Thi Luong","raw_affiliation_strings":["National Institute of Informatics, Tokyo, Japan"],"affiliations":[{"raw_affiliation_string":"National Institute of Informatics, Tokyo, Japan","institution_ids":["https://openalex.org/I184597095"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5007639385","display_name":"Junichi Yamagishi","orcid":"https://orcid.org/0000-0003-2752-3955"},"institutions":[{"id":"https://openalex.org/I184597095","display_name":"National Institute of Informatics","ror":"https://ror.org/04ksd4g47","country_code":"JP","type":"facility","lineage":["https://openalex.org/I1319490839","https://openalex.org/I184597095","https://openalex.org/I4210158934"]},{"id":"https://openalex.org/I98677209","display_name":"University of Edinburgh","ror":"https://ror.org/01nrxwf90","country_code":"GB","type":"education","lineage":["https://openalex.org/I98677209"]}],"countries":["GB","JP"],"is_corresponding":false,"raw_author_name":"Junichi Yamagishi","raw_affiliation_strings":["Unversity of Edinburgh, Edinburgh, UK","National Institute of Informatics, Tokyo, Japan"],"affiliations":[{"raw_affiliation_string":"Unversity of Edinburgh, Edinburgh, UK","institution_ids":["https://openalex.org/I98677209"]},{"raw_affiliation_string":"National Institute of Informatics, Tokyo, Japan","institution_ids":["https://openalex.org/I184597095"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5002145453"],"corresponding_institution_ids":["https://openalex.org/I184597095"],"apc_list":null,"apc_paid":null,"fwci":1.466,"has_fulltext":false,"cited_by_count":11,"citation_normalized_percentile":{"value":0.87126019,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":97},"biblio":{"volume":null,"issue":null,"first_page":"2494","last_page":"2498"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9944000244140625,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10181","display_name":"Natural Language Processing Techniques","score":0.9939000010490417,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.8448368906974792},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.8016422390937805},{"id":"https://openalex.org/keywords/adaptation","display_name":"Adaptation (eye)","score":0.7519156336784363},{"id":"https://openalex.org/keywords/speaker-diarisation","display_name":"Speaker diarisation","score":0.6921918392181396},{"id":"https://openalex.org/keywords/speaker-recognition","display_name":"Speaker recognition","score":0.5759220123291016},{"id":"https://openalex.org/keywords/speech-synthesis","display_name":"Speech synthesis","score":0.5058960318565369},{"id":"https://openalex.org/keywords/architecture","display_name":"Architecture","score":0.4430181682109833},{"id":"https://openalex.org/keywords/speech-processing","display_name":"Speech processing","score":0.4394160807132721},{"id":"https://openalex.org/keywords/voice-activity-detection","display_name":"Voice activity detection","score":0.4367888569831848},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4348299205303192},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.43066734075546265}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8448368906974792},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.8016422390937805},{"id":"https://openalex.org/C139807058","wikidata":"https://www.wikidata.org/wiki/Q352374","display_name":"Adaptation (eye)","level":2,"score":0.7519156336784363},{"id":"https://openalex.org/C149838564","wikidata":"https://www.wikidata.org/wiki/Q7574248","display_name":"Speaker diarisation","level":3,"score":0.6921918392181396},{"id":"https://openalex.org/C133892786","wikidata":"https://www.wikidata.org/wiki/Q1145189","display_name":"Speaker recognition","level":2,"score":0.5759220123291016},{"id":"https://openalex.org/C14999030","wikidata":"https://www.wikidata.org/wiki/Q16346","display_name":"Speech synthesis","level":2,"score":0.5058960318565369},{"id":"https://openalex.org/C123657996","wikidata":"https://www.wikidata.org/wiki/Q12271","display_name":"Architecture","level":2,"score":0.4430181682109833},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.4394160807132721},{"id":"https://openalex.org/C204201278","wikidata":"https://www.wikidata.org/wiki/Q1332614","display_name":"Voice activity detection","level":3,"score":0.4367888569831848},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4348299205303192},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.43066734075546265},{"id":"https://openalex.org/C142362112","wikidata":"https://www.wikidata.org/wiki/Q735","display_name":"Art","level":0,"score":0.0},{"id":"https://openalex.org/C120665830","wikidata":"https://www.wikidata.org/wiki/Q14620","display_name":"Optics","level":1,"score":0.0},{"id":"https://openalex.org/C153349607","wikidata":"https://www.wikidata.org/wiki/Q36649","display_name":"Visual arts","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.21437/interspeech.2018-1791","is_oa":false,"landing_page_url":"https://doi.org/10.21437/interspeech.2018-1791","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Interspeech 2018","raw_type":"proceedings-article"},{"id":"pmh:oai:pure.ed.ac.uk:publications/707b3ddb-49ee-4cf6-a2c5-7e9cc826606c","is_oa":true,"landing_page_url":"https://www.research.ed.ac.uk/en/publications/707b3ddb-49ee-4cf6-a2c5-7e9cc826606c","pdf_url":"https://www.research.ed.ac.uk/en/publications/707b3ddb-49ee-4cf6-a2c5-7e9cc826606c","source":{"id":"https://openalex.org/S4306400321","display_name":"Edinburgh Research Explorer (University of Edinburgh)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I98677209","host_organization_name":"University of Edinburgh","host_organization_lineage":["https://openalex.org/I98677209"],"host_organization_lineage_names":[],"type":"repository"},"license":"other-oa","license_id":"https://openalex.org/licenses/other-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"Luong, H-T & Yamagishi, J 2018, Multimodal Speech Synthesis Architecture for Unsupervised Speaker Adaptation. in Proc. Interspeech 2018. Hyderabad, India, pp. 2494-2498, Interspeech 2018, Hyderabad, India, 2/09/18. https://doi.org/10.21437/Interspeech.2018-1791","raw_type":"contributionToPeriodical"}],"best_oa_location":{"id":"pmh:oai:pure.ed.ac.uk:publications/707b3ddb-49ee-4cf6-a2c5-7e9cc826606c","is_oa":true,"landing_page_url":"https://www.research.ed.ac.uk/en/publications/707b3ddb-49ee-4cf6-a2c5-7e9cc826606c","pdf_url":"https://www.research.ed.ac.uk/en/publications/707b3ddb-49ee-4cf6-a2c5-7e9cc826606c","source":{"id":"https://openalex.org/S4306400321","display_name":"Edinburgh Research Explorer (University of Edinburgh)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I98677209","host_organization_name":"University of Edinburgh","host_organization_lineage":["https://openalex.org/I98677209"],"host_organization_lineage_names":[],"type":"repository"},"license":"other-oa","license_id":"https://openalex.org/licenses/other-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"Luong, H-T & Yamagishi, J 2018, Multimodal Speech Synthesis Architecture for Unsupervised Speaker Adaptation. in Proc. Interspeech 2018. Hyderabad, India, pp. 2494-2498, Interspeech 2018, Hyderabad, India, 2/09/18. https://doi.org/10.21437/Interspeech.2018-1791","raw_type":"contributionToPeriodical"},"sustainable_development_goals":[{"display_name":"Quality Education","score":0.4699999988079071,"id":"https://metadata.un.org/sdg/4"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W2963912679.pdf"},"referenced_works_count":25,"referenced_works":["https://openalex.org/W567546468","https://openalex.org/W1492383498","https://openalex.org/W1573315856","https://openalex.org/W1593598571","https://openalex.org/W1984905644","https://openalex.org/W1993409002","https://openalex.org/W2007062874","https://openalex.org/W2127589108","https://openalex.org/W2406264770","https://openalex.org/W2471520273","https://openalex.org/W2494654097","https://openalex.org/W2626792426","https://openalex.org/W2674088828","https://openalex.org/W2746498480","https://openalex.org/W2759925408","https://openalex.org/W2766812927","https://openalex.org/W2786149683","https://openalex.org/W2787685498","https://openalex.org/W2788357188","https://openalex.org/W2963589210","https://openalex.org/W2963920537","https://openalex.org/W2964243274","https://openalex.org/W4235154690","https://openalex.org/W4298174729","https://openalex.org/W4298857617"],"related_works":["https://openalex.org/W2206035908","https://openalex.org/W4247736853","https://openalex.org/W2162158162","https://openalex.org/W1493012537","https://openalex.org/W1999004162","https://openalex.org/W2175373321","https://openalex.org/W2125642021","https://openalex.org/W1521049138","https://openalex.org/W2938358845","https://openalex.org/W596245619"],"abstract_inverted_index":{"This":[0,34],"paper":[1],"proposes":[2],"a":[3,25],"new":[4,70,75],"architecture":[5,76],"for":[6,73],"speaker":[7,39,54,123],"adaptation":[8,55,106,124],"of":[9,29,119],"multi-speaker":[10,120],"neural-network":[11],"speech":[12,30,66,90,112],"synthesis":[13],"systems,":[14],"in":[15,80],"which":[16],"an":[17],"unseen":[18,108],"speaker\u2019s":[19],"voice":[20],"can":[21],"be":[22],"built":[23],"using":[24,110,125],"relatively":[26],"small":[27],"amount":[28],"data":[31],"without":[32],"transcriptions.":[33],"is":[35],"sometimes":[36],"called":[37],"\u201cunsupervised":[38],"adaptation\u201d.":[40],"More":[41],"specifically,":[42],"we":[43,57],"concatenate":[44,58],"the":[45,48,61,74,100,117],"layers":[46],"to":[47,60,89,107],"audio":[49,127],"inputs":[50,63],"when":[51,64],"performing":[52],"unsupervised":[53],"while":[56],"them":[59],"text":[62],"synthesizing":[65],"from":[67],"text.":[68],"Two":[69],"training":[71,84],"schemes":[72,85],"are":[77,86,94],"also":[78,115],"proposed":[79,101],"this":[81],"paper.":[82],"These":[83],"not":[87,103],"limited":[88],"synthesis;":[91],"other":[92],"applications":[93],"suggested.":[95],"Experimental":[96],"results":[97],"show":[98],"that":[99],"model":[102],"only":[104],"enables":[105],"speakers":[109],"untranscribed":[111],"but":[113],"it":[114],"improves":[116],"performance":[118],"modeling":[121],"and":[122],"transcribed":[126],"files.":[128]},"counts_by_year":[{"year":2023,"cited_by_count":1},{"year":2022,"cited_by_count":1},{"year":2021,"cited_by_count":2},{"year":2020,"cited_by_count":4},{"year":2019,"cited_by_count":2},{"year":2018,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}