{"id":"https://openalex.org/W4416250868","doi":"https://doi.org/10.1109/waspaa66052.2025.11231006","title":"Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior","display_name":"Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior","publication_year":2025,"publication_date":"2025-10-12","ids":{"openalex":"https://openalex.org/W4416250868","doi":"https://doi.org/10.1109/waspaa66052.2025.11231006"},"language":null,"primary_location":{"id":"doi:10.1109/waspaa66052.2025.11231006","is_oa":false,"landing_page_url":"https://doi.org/10.1109/waspaa66052.2025.11231006","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5024155095","display_name":"Chin-Yun Yu","orcid":null},"institutions":[{"id":"https://openalex.org/I166337079","display_name":"Queen Mary University of London","ror":"https://ror.org/026zzn846","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I166337079"]}],"countries":["GB"],"is_corresponding":true,"raw_author_name":"Chin-Yun Yu","raw_affiliation_strings":["Queen Mary University of London,Centre for Digital Music,London,UK"],"affiliations":[{"raw_affiliation_string":"Queen Mary University of London,Centre for Digital Music,London,UK","institution_ids":["https://openalex.org/I166337079"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5017282176","display_name":"Marco A. Mart\u00ednez-Ram\u00edrez","orcid":null},"institutions":[{"id":"https://openalex.org/I4210143797","display_name":"Sony (Japan)","ror":"https://ror.org/04wzv3n59","country_code":"JP","type":"company","lineage":["https://openalex.org/I4210143797"]},{"id":"https://openalex.org/I4210122684","display_name":"Sony Computer Science Laboratories","ror":"https://ror.org/02nc46417","country_code":"JP","type":"facility","lineage":["https://openalex.org/I4210122684"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Marco A. Mart\u00ednez-Ram\u00edrez","raw_affiliation_strings":["Sony AI,Tokyo,Japan"],"affiliations":[{"raw_affiliation_string":"Sony AI,Tokyo,Japan","institution_ids":["https://openalex.org/I4210122684","https://openalex.org/I4210143797"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5031164776","display_name":"Junghyun Koo","orcid":"https://orcid.org/0009-0004-4468-0367"},"institutions":[{"id":"https://openalex.org/I4210122684","display_name":"Sony Computer Science Laboratories","ror":"https://ror.org/02nc46417","country_code":"JP","type":"facility","lineage":["https://openalex.org/I4210122684"]},{"id":"https://openalex.org/I4210143797","display_name":"Sony (Japan)","ror":"https://ror.org/04wzv3n59","country_code":"JP","type":"company","lineage":["https://openalex.org/I4210143797"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Junghyun Koo","raw_affiliation_strings":["Sony AI,Tokyo,Japan"],"affiliations":[{"raw_affiliation_string":"Sony AI,Tokyo,Japan","institution_ids":["https://openalex.org/I4210122684","https://openalex.org/I4210143797"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5111523923","display_name":"Wei-Hsiang Liao","orcid":"https://orcid.org/0009-0003-5171-2497"},"institutions":[{"id":"https://openalex.org/I4210122684","display_name":"Sony Computer Science Laboratories","ror":"https://ror.org/02nc46417","country_code":"JP","type":"facility","lineage":["https://openalex.org/I4210122684"]},{"id":"https://openalex.org/I4210143797","display_name":"Sony (Japan)","ror":"https://ror.org/04wzv3n59","country_code":"JP","type":"company","lineage":["https://openalex.org/I4210143797"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Wei-Hsiang Liao","raw_affiliation_strings":["Sony AI,Tokyo,Japan"],"affiliations":[{"raw_affiliation_string":"Sony AI,Tokyo,Japan","institution_ids":["https://openalex.org/I4210122684","https://openalex.org/I4210143797"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5088754502","display_name":"Yuki Mitsufuji","orcid":"https://orcid.org/0000-0002-6806-6140"},"institutions":[{"id":"https://openalex.org/I4210143797","display_name":"Sony (Japan)","ror":"https://ror.org/04wzv3n59","country_code":"JP","type":"company","lineage":["https://openalex.org/I4210143797"]},{"id":"https://openalex.org/I4210122684","display_name":"Sony Computer Science Laboratories","ror":"https://ror.org/02nc46417","country_code":"JP","type":"facility","lineage":["https://openalex.org/I4210122684"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Yuki Mitsufuji","raw_affiliation_strings":["Sony AI,Tokyo,Japan"],"affiliations":[{"raw_affiliation_string":"Sony AI,Tokyo,Japan","institution_ids":["https://openalex.org/I4210122684","https://openalex.org/I4210143797"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5032485940","display_name":"Gy\u00f6rgy Fazekas","orcid":null},"institutions":[{"id":"https://openalex.org/I166337079","display_name":"Queen Mary University of London","ror":"https://ror.org/026zzn846","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I166337079"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Gy\u00f6rgy Fazekas","raw_affiliation_strings":["Queen Mary University of London,Centre for Digital Music,London,UK"],"affiliations":[{"raw_affiliation_string":"Queen Mary University of London,Centre for Digital Music,London,UK","institution_ids":["https://openalex.org/I166337079"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":6,"corresponding_author_ids":["https://openalex.org/A5024155095"],"corresponding_institution_ids":["https://openalex.org/I166337079"],"apc_list":null,"apc_paid":null,"fwci":1.2783,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.84945741,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":96,"max":98},"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"5"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.3580999970436096,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.3580999970436096,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.20720000565052032,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.12080000340938568,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/embedding","display_name":"Embedding","score":0.46549999713897705},{"id":"https://openalex.org/keywords/gaussian","display_name":"Gaussian","score":0.4449999928474426},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.43290001153945923},{"id":"https://openalex.org/keywords/transfer","display_name":"Transfer (computing)","score":0.4050999879837036},{"id":"https://openalex.org/keywords/calibration","display_name":"Calibration","score":0.3846000134944916},{"id":"https://openalex.org/keywords/audio-signal-processing","display_name":"Audio signal processing","score":0.3619999885559082},{"id":"https://openalex.org/keywords/gaussian-process","display_name":"Gaussian process","score":0.3614000082015991},{"id":"https://openalex.org/keywords/vocal-tract","display_name":"Vocal tract","score":0.35120001435279846}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6398000121116638},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.5684000253677368},{"id":"https://openalex.org/C41608201","wikidata":"https://www.wikidata.org/wiki/Q980509","display_name":"Embedding","level":2,"score":0.46549999713897705},{"id":"https://openalex.org/C163716315","wikidata":"https://www.wikidata.org/wiki/Q901177","display_name":"Gaussian","level":2,"score":0.4449999928474426},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.43290001153945923},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4196999967098236},{"id":"https://openalex.org/C2776175482","wikidata":"https://www.wikidata.org/wiki/Q1195816","display_name":"Transfer (computing)","level":2,"score":0.4050999879837036},{"id":"https://openalex.org/C165838908","wikidata":"https://www.wikidata.org/wiki/Q736777","display_name":"Calibration","level":2,"score":0.3846000134944916},{"id":"https://openalex.org/C127220857","wikidata":"https://www.wikidata.org/wiki/Q2719318","display_name":"Audio signal processing","level":4,"score":0.3619999885559082},{"id":"https://openalex.org/C61326573","wikidata":"https://www.wikidata.org/wiki/Q1496376","display_name":"Gaussian process","level":3,"score":0.3614000082015991},{"id":"https://openalex.org/C47401133","wikidata":"https://www.wikidata.org/wiki/Q748953","display_name":"Vocal tract","level":2,"score":0.35120001435279846},{"id":"https://openalex.org/C128422554","wikidata":"https://www.wikidata.org/wiki/Q20077126","display_name":"Sound recording and reproduction","level":2,"score":0.3190999925136566},{"id":"https://openalex.org/C64922751","wikidata":"https://www.wikidata.org/wiki/Q4650799","display_name":"Audio signal","level":3,"score":0.3109000027179718},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.3089999854564667},{"id":"https://openalex.org/C139945424","wikidata":"https://www.wikidata.org/wiki/Q1940696","display_name":"Mean squared error","level":2,"score":0.30230000615119934},{"id":"https://openalex.org/C167310288","wikidata":"https://www.wikidata.org/wiki/Q7564808","display_name":"Sound quality","level":2,"score":0.2847000062465668},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.27730000019073486},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.2727999985218048},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.2646999955177307},{"id":"https://openalex.org/C150899416","wikidata":"https://www.wikidata.org/wiki/Q1820378","display_name":"Transfer of learning","level":2,"score":0.2574999928474426},{"id":"https://openalex.org/C2776182073","wikidata":"https://www.wikidata.org/wiki/Q7575395","display_name":"Speech enhancement","level":3,"score":0.251800000667572}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/waspaa66052.2025.11231006","is_oa":false,"landing_page_url":"https://doi.org/10.1109/waspaa66052.2025.11231006","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":19,"referenced_works":["https://openalex.org/W1545662716","https://openalex.org/W2791686384","https://openalex.org/W2963175743","https://openalex.org/W3094550259","https://openalex.org/W3096628760","https://openalex.org/W3163547199","https://openalex.org/W4225326921","https://openalex.org/W4252684946","https://openalex.org/W4307977691","https://openalex.org/W4372260142","https://openalex.org/W4372263680","https://openalex.org/W4372266552","https://openalex.org/W4375869358","https://openalex.org/W4391232038","https://openalex.org/W4392902947","https://openalex.org/W4392903291","https://openalex.org/W4395471070","https://openalex.org/W4405974256","https://openalex.org/W4408354559"],"related_works":[],"abstract_inverted_index":{"Style":[0],"Transfer":[1],"with":[2,145],"Inference-Time":[3],"Optimisation":[4],"(ST-ITO)":[5],"is":[6,90],"a":[7,16,73,113],"recent":[8],"approach":[9],"for":[10,175],"transferring":[11],"the":[12,25,30,33,37,41,55,78,84,101,127,140,149,173],"applied":[13],"effects":[14,98,116,170],"of":[15,36,151],"reference":[17,141],"audio":[18,21,39,115,169,180],"to":[19,28,92,110,134],"an":[20],"track.":[22],"It":[23],"optimises":[24],"effect":[26],"parameters":[27],"minimise":[29],"distance":[31],"between":[32],"style":[34],"embeddings":[35],"processed":[38],"and":[40,51,120,136,178],"reference.":[42],"However,":[43],"this":[44,69],"method":[45,153],"treats":[46],"all":[47],"possible":[48],"configurations":[49,63],"equally":[50],"relies":[52],"solely":[53],"on":[54,96,100],"embedding":[56],"space,":[57],"which":[58],"can":[59],"result":[60],"in":[61,154,165],"unrealistic":[62],"or":[64],"biased":[65],"outcomes.":[66],"We":[67],"address":[68],"pitfall":[70],"by":[71,132],"introducing":[72],"Gaussian":[74],"prior":[75,163],"derived":[76],"from":[77],"DiffVox":[79],"vocal":[80,97],"preset":[81],"dataset":[82,103],"over":[83],"parameter":[85,128],"space.":[86],"The":[87,123],"resulting":[88],"optimisation":[89],"equivalent":[91],"maximum-a-posteriori":[93],"estimation.":[94],"Evaluations":[95],"transfer":[99],"MedleyDB":[102],"show":[104],"significant":[105],"improvements":[106],"across":[107],"metrics":[108],"compared":[109],"baselines,":[111],"including":[112],"blind":[114],"estimator,":[117],"nearest-neighbour":[118],"approaches,":[119],"uncalibrated":[121],"ST-ITO.":[122],"proposed":[124],"calibration":[125],"reduces":[126],"mean":[129],"squared":[130],"error":[131],"up":[133],"33%":[135],"more":[137,176],"closely":[138],"matches":[139],"style.":[142],"Subjective":[143],"evaluations":[144],"16":[146],"participants":[147],"confirm":[148],"superiority":[150],"our":[152],"limited":[155],"data":[156],"regimes.":[157],"This":[158],"work":[159],"demonstrates":[160],"how":[161],"incorporating":[162],"knowledge":[164],"inference":[166],"time":[167],"enhances":[168],"transfer,":[171],"paving":[172],"way":[174],"effective":[177],"realistic":[179],"processing":[181],"systems.":[182]},"counts_by_year":[{"year":2026,"cited_by_count":1}],"updated_date":"2026-04-23T09:07:50.710637","created_date":"2025-11-14T00:00:00"}