{"id":"https://openalex.org/W4416250598","doi":"https://doi.org/10.1109/waspaa66052.2025.11230986","title":"DiTVC: One-Shot Voice Conversion via Diffusion Transformer with Environment and Speaking Rate Cloning","display_name":"DiTVC: One-Shot Voice Conversion via Diffusion Transformer with Environment and Speaking Rate Cloning","publication_year":2025,"publication_date":"2025-10-12","ids":{"openalex":"https://openalex.org/W4416250598","doi":"https://doi.org/10.1109/waspaa66052.2025.11230986"},"language":null,"primary_location":{"id":"doi:10.1109/waspaa66052.2025.11230986","is_oa":false,"landing_page_url":"https://doi.org/10.1109/waspaa66052.2025.11230986","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5100714801","display_name":"Yunyun Wang","orcid":"https://orcid.org/0000-0003-1612-3681"},"institutions":[{"id":"https://openalex.org/I20089843","display_name":"Princeton University","ror":"https://ror.org/00hx57361","country_code":"US","type":"education","lineage":["https://openalex.org/I20089843"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Yunyun Wang","raw_affiliation_strings":["Princeton University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Princeton University","institution_ids":["https://openalex.org/I20089843"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101859099","display_name":"Jiaqi Su","orcid":"https://orcid.org/0000-0001-6038-0808"},"institutions":[{"id":"https://openalex.org/I1306409833","display_name":"Adobe Systems (United States)","ror":"https://ror.org/059tvcg64","country_code":"US","type":"company","lineage":["https://openalex.org/I1306409833"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Jiaqi Su","raw_affiliation_strings":["Adobe Research"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Adobe Research","institution_ids":["https://openalex.org/I1306409833"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5034842939","display_name":"Adam Finkelstein","orcid":"https://orcid.org/0000-0001-9422-5363"},"institutions":[{"id":"https://openalex.org/I20089843","display_name":"Princeton University","ror":"https://ror.org/00hx57361","country_code":"US","type":"education","lineage":["https://openalex.org/I20089843"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Adam Finkelstein","raw_affiliation_strings":["Princeton University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Princeton University","institution_ids":["https://openalex.org/I20089843"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5076833789","display_name":"Rithesh Kumar","orcid":null},"institutions":[{"id":"https://openalex.org/I1306409833","display_name":"Adobe Systems (United States)","ror":"https://ror.org/059tvcg64","country_code":"US","type":"company","lineage":["https://openalex.org/I1306409833"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Rithesh Kumar","raw_affiliation_strings":["Adobe Research"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Adobe Research","institution_ids":["https://openalex.org/I1306409833"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100697699","display_name":"Ke Chen","orcid":"https://orcid.org/0000-0002-3070-7926"},"institutions":[{"id":"https://openalex.org/I1306409833","display_name":"Adobe Systems (United States)","ror":"https://ror.org/059tvcg64","country_code":"US","type":"company","lineage":["https://openalex.org/I1306409833"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Ke Chen","raw_affiliation_strings":["Adobe Research"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Adobe Research","institution_ids":["https://openalex.org/I1306409833"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100702050","display_name":"Zeyu Jin","orcid":"https://orcid.org/0000-0003-0161-5915"},"institutions":[{"id":"https://openalex.org/I1306409833","display_name":"Adobe Systems (United States)","ror":"https://ror.org/059tvcg64","country_code":"US","type":"company","lineage":["https://openalex.org/I1306409833"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Zeyu Jin","raw_affiliation_strings":["Adobe Research"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Adobe Research","institution_ids":["https://openalex.org/I1306409833"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"5"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.7409999966621399,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.7409999966621399,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.07360000163316727,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10863","display_name":"Voice and Speech Disorders","score":0.04780000075697899,"subfield":{"id":"https://openalex.org/subfields/2737","display_name":"Physiology"},"field":{"id":"https://openalex.org/fields/27","display_name":"Medicine"},"domain":{"id":"https://openalex.org/domains/4","display_name":"Health Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/timbre","display_name":"Timbre","score":0.7347000241279602},{"id":"https://openalex.org/keywords/transformer","display_name":"Transformer","score":0.5910999774932861},{"id":"https://openalex.org/keywords/embedding","display_name":"Embedding","score":0.47769999504089355},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.4138000011444092},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.4027999937534332},{"id":"https://openalex.org/keywords/sound-recording-and-reproduction","display_name":"Sound recording and reproduction","score":0.31839999556541443}],"concepts":[{"id":"https://openalex.org/C2776539107","wikidata":"https://www.wikidata.org/wiki/Q176501","display_name":"Timbre","level":3,"score":0.7347000241279602},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.6782000064849854},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6700999736785889},{"id":"https://openalex.org/C66322947","wikidata":"https://www.wikidata.org/wiki/Q11658","display_name":"Transformer","level":3,"score":0.5910999774932861},{"id":"https://openalex.org/C41608201","wikidata":"https://www.wikidata.org/wiki/Q980509","display_name":"Embedding","level":2,"score":0.47769999504089355},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.4138000011444092},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.4027999937534332},{"id":"https://openalex.org/C24890656","wikidata":"https://www.wikidata.org/wiki/Q82811","display_name":"Acoustics","level":1,"score":0.33079999685287476},{"id":"https://openalex.org/C128422554","wikidata":"https://www.wikidata.org/wiki/Q20077126","display_name":"Sound recording and reproduction","level":2,"score":0.31839999556541443},{"id":"https://openalex.org/C133892786","wikidata":"https://www.wikidata.org/wiki/Q1145189","display_name":"Speaker recognition","level":2,"score":0.31619998812675476},{"id":"https://openalex.org/C54926389","wikidata":"https://www.wikidata.org/wiki/Q7575188","display_name":"Spectral envelope","level":2,"score":0.3075999915599823},{"id":"https://openalex.org/C155635449","wikidata":"https://www.wikidata.org/wiki/Q4674699","display_name":"Acoustic model","level":3,"score":0.3068999946117401},{"id":"https://openalex.org/C189809214","wikidata":"https://www.wikidata.org/wiki/Q829522","display_name":"Beat (acoustics)","level":2,"score":0.2768000066280365},{"id":"https://openalex.org/C151989614","wikidata":"https://www.wikidata.org/wiki/Q440370","display_name":"Mel-frequency cepstrum","level":3,"score":0.2671000063419342},{"id":"https://openalex.org/C182964821","wikidata":"https://www.wikidata.org/wiki/Q7939498","display_name":"Voice analysis","level":2,"score":0.2540999948978424}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/waspaa66052.2025.11230986","is_oa":false,"landing_page_url":"https://doi.org/10.1109/waspaa66052.2025.11230986","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":11,"referenced_works":["https://openalex.org/W1597121597","https://openalex.org/W2086381917","https://openalex.org/W3015805741","https://openalex.org/W3119308075","https://openalex.org/W3140429000","https://openalex.org/W3209059054","https://openalex.org/W4252812408","https://openalex.org/W4304099317","https://openalex.org/W4372260053","https://openalex.org/W4390872297","https://openalex.org/W4392903903"],"related_works":[],"abstract_inverted_index":{"Traditional":[0],"zero-shot":[1],"voice":[2,26,42,65,73],"conversion":[3,66],"methods":[4],"typically":[5],"extract":[6],"a":[7,11,63,90],"speaker":[8,38,127],"embedding":[9],"from":[10],"reference":[12,55],"recording":[13],"first":[14],"and":[15,44,87,112,129],"then":[16],"generate":[17],"the":[18,23,54,136],"source":[19],"speech":[20],"content":[21,92],"in":[22,122],"target":[24,141],"speaker\u2019s":[25],"by":[27],"conditioning":[28],"on":[29,89],"that":[30,116],"embedding.":[31],"However,":[32],"this":[33],"process":[34],"often":[35],"overlooks":[36],"time-dependent":[37],"characteristics,":[39],"such":[40],"as":[41,47,49],"dynamics":[43],"speaking":[45,107,137],"rates,":[46],"well":[48],"environmental":[50,130],"acoustic":[51,77,95,131],"properties":[52],"of":[53,69,124,140],"recording.":[56],"To":[57],"address":[58],"these":[59],"limitations,":[60],"we":[61,98],"propose":[62],"one-shot":[64],"framework":[67],"capable":[68],"replicating":[70],"not":[71],"only":[72],"timbre":[74],"but":[75],"also":[76],"properties.":[78],"Our":[79],"model":[80],"is":[81],"built":[82],"upon":[83],"Diffusion":[84],"Transformers":[85],"(DiT)":[86],"conditioned":[88],"designed":[91],"representation":[93],"for":[94],"cloning.":[96,109],"Besides,":[97],"introduce":[99],"specific":[100],"augmentations":[101],"during":[102],"training":[103],"to":[104],"enable":[105],"accurate":[106],"rate":[108,138],"Both":[110],"objective":[111],"subjective":[113],"evaluations":[114],"demonstrate":[115],"our":[117],"method":[118],"outperforms":[119],"existing":[120],"approaches":[121],"terms":[123],"audio":[125],"quality,":[126],"similarity,":[128,132],"while":[133],"effectively":[134],"capturing":[135],"distribution":[139],"speakers.":[142],"Audio":[143],"samples":[144],"are":[145],"available":[146],"at:":[147],"ditvc.github.io.":[148]},"counts_by_year":[],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-11-14T00:00:00"}