{"id":"https://openalex.org/W7134813756","doi":"https://doi.org/10.48550/arxiv.2603.08574","title":"Scalable Neural Vocoder from Range-Null Space Decomposition","display_name":"Scalable Neural Vocoder from Range-Null Space Decomposition","publication_year":2026,"publication_date":"2026-03-09","ids":{"openalex":"https://openalex.org/W7134813756","doi":"https://doi.org/10.48550/arxiv.2603.08574"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.08574","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.08574","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.08574","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5123459325","display_name":"Andong Li","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Li, Andong","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5056414497","display_name":"Tong Lei","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lei, Tong","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5018569990","display_name":"Zhihang Sun","orcid":"https://orcid.org/0000-0002-3787-0144"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sun, Zhihang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128655294","display_name":"Rilin Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chen, Rilin","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128651231","display_name":"Xiaodong Li","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Xiaodong","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128641933","display_name":"Dong Yu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yu, Dong","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5128670759","display_name":"Chengshi Zheng","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zheng, Chengshi","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":7,"corresponding_author_ids":["https://openalex.org/A5123459325"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.3824999928474426,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.3824999928474426,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.20180000364780426,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12131","display_name":"Wireless Signal Modulation Classification","score":0.12460000067949295,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.5889999866485596},{"id":"https://openalex.org/keywords/scalability","display_name":"Scalability","score":0.566100001335144},{"id":"https://openalex.org/keywords/leverage","display_name":"Leverage (statistics)","score":0.5654000043869019},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.5259000062942505},{"id":"https://openalex.org/keywords/spectrogram","display_name":"Spectrogram","score":0.507099986076355},{"id":"https://openalex.org/keywords/modular-design","display_name":"Modular design","score":0.4449000060558319},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.42250001430511475}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7890999913215637},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.5889999866485596},{"id":"https://openalex.org/C48044578","wikidata":"https://www.wikidata.org/wiki/Q727490","display_name":"Scalability","level":2,"score":0.566100001335144},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.5654000043869019},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.5259000062942505},{"id":"https://openalex.org/C45273575","wikidata":"https://www.wikidata.org/wiki/Q578970","display_name":"Spectrogram","level":2,"score":0.507099986076355},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.47760000824928284},{"id":"https://openalex.org/C101468663","wikidata":"https://www.wikidata.org/wiki/Q1620158","display_name":"Modular design","level":2,"score":0.4449000060558319},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.42250001430511475},{"id":"https://openalex.org/C124681953","wikidata":"https://www.wikidata.org/wiki/Q339062","display_name":"Decomposition","level":2,"score":0.3427000045776367},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.3287999927997589},{"id":"https://openalex.org/C2984842247","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep neural networks","level":3,"score":0.3260999917984009},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3197999894618988},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.271699994802475},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.27090001106262207},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.26190000772476196},{"id":"https://openalex.org/C104267543","wikidata":"https://www.wikidata.org/wiki/Q208163","display_name":"Signal processing","level":3,"score":0.2551000118255615},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.25459998846054077}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.08574","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.08574","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.08574","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.08574","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Although":[0],"deep":[1],"neural":[2,9,54,116],"networks":[3,117],"have":[4],"facilitated":[5],"significant":[6],"progress":[7],"of":[8,40,80],"vocoders":[10],"in":[11,47,56,100,178,186],"recent":[12],"years,":[13],"they":[14],"usually":[15],"suffer":[16],"from":[17],"intrinsic":[18],"challenges":[19],"like":[20],"opaque":[21],"modeling,":[22],"inflexible":[23],"retraining":[24],"under":[25,163],"different":[26],"input":[27],"configurations,":[28,165],"and":[29,73,91,109,142,144,147,157,198,208],"parameter-performance":[30],"trade-off.":[31],"These":[32],"inherent":[33],"hurdles":[34],"can":[35,112],"heavily":[36],"impede":[37],"the":[38,57,64,67,74,78,81,87,98,101,105,110,121,127,137,145,175,179,183,187,212],"development":[39],"this":[41,48],"field.":[42],"To":[43,124,160],"resolve":[44],"these":[45],"problems,":[46],"paper,":[49],"we":[50,62,166],"propose":[51,167],"a":[52,168],"novel":[53],"vocoder":[55,75],"time-frequency":[58],"(T-F)":[59],"domain.":[60],"Specifically,":[61],"bridge":[63],"connection":[65],"between":[66,89],"classical":[68],"range-null":[69],"decomposition":[70],"(RND)":[71],"theory":[72],"task,":[76],"where":[77,136],"reconstruction":[79],"target":[82,106],"spectrogram":[83],"is":[84,134,139,223],"formulated":[85],"into":[86,104,182],"superimposition":[88],"range-space":[90],"null-space.":[92],"The":[93],"former":[94],"aims":[95],"to":[96,118],"project":[97],"representation":[99],"original":[102],"mel-domain":[103],"linear-scale":[107],"domain,":[108],"latter":[111],"be":[113],"instantiated":[114],"via":[115],"further":[119],"infill":[120],"spectral":[122],"details.":[123],"fully":[125],"leverage":[126],"spectrum":[128,138],"prior,":[129],"an":[130],"elaborate":[131],"dual-path":[132],"framework":[133,214],"devised,":[135],"hierarchically":[140],"encoded":[141],"decoded,":[143],"cross-":[146],"narrow-band":[148],"modules":[149],"are":[150,192],"leveraged":[151],"for":[152],"effectively":[153],"modeling":[154],"along":[155],"sub-band":[156],"time":[158],"dimensions.":[159],"enable":[161],"inference":[162,180,210],"various":[164,195],"simple":[169],"yet":[170],"effective":[171],"strategy,":[172],"which":[173],"transforms":[174],"multi-condition":[176],"adaption":[177],"stage":[181],"data":[184],"augmentation":[185],"training":[188],"stage.":[189],"Comprehensive":[190],"experiments":[191],"conducted":[193],"on":[194],"benchmarks.":[196],"Quantitative":[197],"qualitative":[199],"results":[200],"show":[201],"that":[202],"while":[203],"enjoying":[204],"lightweight":[205],"network":[206],"structure":[207],"scalable":[209],"paradigm,":[211],"proposed":[213],"achieves":[215],"state-ofthe-art":[216],"performance":[217],"among":[218],"existing":[219],"advanced":[220],"methods.":[221],"Code":[222],"available":[224],"at":[225],"https://github.com/Andong-Li-speech/RNDVoC.":[226]},"counts_by_year":[],"updated_date":"2026-03-11T06:17:14.884878","created_date":"2026-03-11T00:00:00"}