{"id":"https://openalex.org/W4406858438","doi":"https://doi.org/10.1109/apsipaasc63619.2025.10848991","title":"Improving Speaker Consistency in Speech-to-Speech Translation Using Speaker Retention Unit-to-Mel Techniques","display_name":"Improving Speaker Consistency in Speech-to-Speech Translation Using Speaker Retention Unit-to-Mel Techniques","publication_year":2024,"publication_date":"2024-12-03","ids":{"openalex":"https://openalex.org/W4406858438","doi":"https://doi.org/10.1109/apsipaasc63619.2025.10848991"},"language":"en","primary_location":{"id":"doi:10.1109/apsipaasc63619.2025.10848991","is_oa":false,"landing_page_url":"https://doi.org/10.1109/apsipaasc63619.2025.10848991","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5063631680","display_name":"Rui Zhou","orcid":"https://orcid.org/0009-0001-3573-7905"},"institutions":[{"id":"https://openalex.org/I201537933","display_name":"Tohoku University","ror":"https://ror.org/01dq60k83","country_code":"JP","type":"education","lineage":["https://openalex.org/I201537933"]}],"countries":["JP"],"is_corresponding":true,"raw_author_name":"Rui Zhou","raw_affiliation_strings":["Tohoku University,Graduate School of Engineering,Sendai"],"affiliations":[{"raw_affiliation_string":"Tohoku University,Graduate School of Engineering,Sendai","institution_ids":["https://openalex.org/I201537933"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5082389304","display_name":"Akinori Ito","orcid":"https://orcid.org/0000-0002-8835-7877"},"institutions":[{"id":"https://openalex.org/I201537933","display_name":"Tohoku University","ror":"https://ror.org/01dq60k83","country_code":"JP","type":"education","lineage":["https://openalex.org/I201537933"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Akinori Ito","raw_affiliation_strings":["Tohoku University,Graduate School of Engineering,Sendai"],"affiliations":[{"raw_affiliation_string":"Tohoku University,Graduate School of Engineering,Sendai","institution_ids":["https://openalex.org/I201537933"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5091720513","display_name":"Takashi Nose","orcid":"https://orcid.org/0000-0002-2278-0429"},"institutions":[{"id":"https://openalex.org/I201537933","display_name":"Tohoku University","ror":"https://ror.org/01dq60k83","country_code":"JP","type":"education","lineage":["https://openalex.org/I201537933"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Takashi Nose","raw_affiliation_strings":["Tohoku University,Graduate School of Engineering"],"affiliations":[{"raw_affiliation_string":"Tohoku University,Graduate School of Engineering","institution_ids":["https://openalex.org/I201537933"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5063631680"],"corresponding_institution_ids":["https://openalex.org/I201537933"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.23675192,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9485999941825867,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9485999941825867,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.7822629809379578},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7322512865066528},{"id":"https://openalex.org/keywords/speech-translation","display_name":"Speech translation","score":0.6772666573524475},{"id":"https://openalex.org/keywords/consistency","display_name":"Consistency (knowledge bases)","score":0.5179764032363892},{"id":"https://openalex.org/keywords/speaker-diarisation","display_name":"Speaker diarisation","score":0.4981677532196045},{"id":"https://openalex.org/keywords/speaker-recognition","display_name":"Speaker recognition","score":0.48909956216812134},{"id":"https://openalex.org/keywords/speech-processing","display_name":"Speech processing","score":0.43500056862831116},{"id":"https://openalex.org/keywords/speech-synthesis","display_name":"Speech synthesis","score":0.43074682354927063},{"id":"https://openalex.org/keywords/natural-language-processing","display_name":"Natural language processing","score":0.3501092791557312},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.32141339778900146},{"id":"https://openalex.org/keywords/machine-translation","display_name":"Machine translation","score":0.1603551208972931}],"concepts":[{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.7822629809379578},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7322512865066528},{"id":"https://openalex.org/C2780366754","wikidata":"https://www.wikidata.org/wiki/Q7494857","display_name":"Speech translation","level":3,"score":0.6772666573524475},{"id":"https://openalex.org/C2776436953","wikidata":"https://www.wikidata.org/wiki/Q5163215","display_name":"Consistency (knowledge bases)","level":2,"score":0.5179764032363892},{"id":"https://openalex.org/C149838564","wikidata":"https://www.wikidata.org/wiki/Q7574248","display_name":"Speaker diarisation","level":3,"score":0.4981677532196045},{"id":"https://openalex.org/C133892786","wikidata":"https://www.wikidata.org/wiki/Q1145189","display_name":"Speaker recognition","level":2,"score":0.48909956216812134},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.43500056862831116},{"id":"https://openalex.org/C14999030","wikidata":"https://www.wikidata.org/wiki/Q16346","display_name":"Speech synthesis","level":2,"score":0.43074682354927063},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.3501092791557312},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.32141339778900146},{"id":"https://openalex.org/C203005215","wikidata":"https://www.wikidata.org/wiki/Q79798","display_name":"Machine translation","level":2,"score":0.1603551208972931}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/apsipaasc63619.2025.10848991","is_oa":false,"landing_page_url":"https://doi.org/10.1109/apsipaasc63619.2025.10848991","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":29,"referenced_works":["https://openalex.org/W1494198834","https://openalex.org/W2582956876","https://openalex.org/W2748501745","https://openalex.org/W2963609956","https://openalex.org/W2964243274","https://openalex.org/W2972359262","https://openalex.org/W2972495969","https://openalex.org/W3024869864","https://openalex.org/W3035390927","https://openalex.org/W3092424727","https://openalex.org/W3119308075","https://openalex.org/W3175871055","https://openalex.org/W3180374548","https://openalex.org/W3209059054","https://openalex.org/W4225956675","https://openalex.org/W4287854499","https://openalex.org/W4296070387","https://openalex.org/W4385245566","https://openalex.org/W4385571229","https://openalex.org/W4385823048","https://openalex.org/W4391515560","https://openalex.org/W4402671149","https://openalex.org/W6752888775","https://openalex.org/W6763832098","https://openalex.org/W6778823374","https://openalex.org/W6783867762","https://openalex.org/W6799081819","https://openalex.org/W6810701745","https://openalex.org/W6852909395"],"related_works":["https://openalex.org/W2206035908","https://openalex.org/W2149220986","https://openalex.org/W1493012537","https://openalex.org/W2338806053","https://openalex.org/W4247736853","https://openalex.org/W2162158162","https://openalex.org/W1999004162","https://openalex.org/W2125642021","https://openalex.org/W4406496871","https://openalex.org/W1521049138"],"abstract_inverted_index":{"We":[0,96],"propose":[1],"a":[2,26,84],"Speaker-Consistent":[3],"Speech-to-Speech":[4],"Translation":[5,18],"(SC-S2ST)":[6],"system":[7,133],"that":[8,54,144,159],"effectively":[9,147],"retains":[10,148],"speaker-specific":[11,56,94,149],"information.":[12,95],"While":[13],"the":[14,34,72,100,126],"paradigm":[15],"of":[16,74,116,125],"Speech-to-Unit":[17],"(S2UT)":[19],"followed":[20],"by":[21,39],"Unit-to-Waveform":[22],"Vocoder":[23],"has":[24],"become":[25],"mainstream":[27],"for":[28,105],"End-to-End":[29],"S2ST":[30],"systems,":[31],"due":[32],"to":[33,90,123],"substantial":[35],"semantic":[36,46],"content":[37],"carried":[38],"discrete":[40],"units,":[41],"this":[42,80],"approach":[43,112,162],"primarily":[44],"captures":[45],"information":[47,150],"and":[48,61,92,102,107,118],"often":[49],"results":[50,157],"in":[51,135],"synthesized":[52],"speech":[53],"lacks":[55],"characteristics":[57],"such":[58],"as":[59],"accent":[60],"individual":[62],"voice":[63],"qualities.":[64],"Existing":[65],"S2UT":[66,128],"systems":[67],"with":[68],"style":[69],"transfer":[70],"face":[71],"issue":[73],"high":[75],"inference":[76,154],"latency.":[77],"To":[78],"address":[79],"limitation,":[81],"we":[82],"introduced":[83],"Speaker-Retention":[85],"Unit-to-Mel":[86],"(SR-UTM)":[87],"framework":[88],"designed":[89],"capture":[91],"preserve":[93],"conducted":[97],"experiments":[98,142],"on":[99],"CVSS-C":[101],"CVSS-T":[103],"corpora":[104],"Spanish-English":[106],"French-English":[108],"translation":[109],"tasks.":[110],"Our":[111],"achieved":[113],"BLEU":[114],"scores":[115],"16.10":[117],"21.68,":[119],"which":[120],"are":[121],"comparable":[122],"those":[124],"baseline":[127],"system.":[129],"Furthermore,":[130],"our":[131,145,160],"SC-S2UT":[132],"excelled":[134],"preserving":[136],"speaker":[137,140],"similarity.":[138],"The":[139],"similarity":[141],"showed":[143],"method":[146],"without":[151],"significantly":[152],"increasing":[153],"time.":[155],"These":[156],"confirm":[158],"primary":[161],"successfully":[163],"achieve":[164],"speaker-consistent":[165],"speech-to-speech":[166],"translation.":[167]},"counts_by_year":[],"updated_date":"2025-12-22T23:10:17.713674","created_date":"2025-10-10T00:00:00"}