{"id":"https://openalex.org/W7148271800","doi":"https://doi.org/10.1109/asru65441.2025.11434617","title":"Codec2Vec: Self-Supervised Speech Representation Learning Using Neural Speech Codecs","display_name":"Codec2Vec: Self-Supervised Speech Representation Learning Using Neural Speech Codecs","publication_year":2025,"publication_date":"2025-12-06","ids":{"openalex":"https://openalex.org/W7148271800","doi":"https://doi.org/10.1109/asru65441.2025.11434617"},"language":null,"primary_location":{"id":"doi:10.1109/asru65441.2025.11434617","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru65441.2025.11434617","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5002538444","display_name":"Wei\u2010Cheng Tseng","orcid":"https://orcid.org/0000-0003-3528-8633"},"institutions":[{"id":"https://openalex.org/I86519309","display_name":"The University of Texas at Austin","ror":"https://ror.org/00hj54h04","country_code":"US","type":"education","lineage":["https://openalex.org/I86519309"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Wei-Cheng Tseng","raw_affiliation_strings":["University of Texas at Austin,Department of Computer Science,Texas,USA"],"affiliations":[{"raw_affiliation_string":"University of Texas at Austin,Department of Computer Science,Texas,USA","institution_ids":["https://openalex.org/I86519309"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5004717608","display_name":"David Harwath","orcid":"https://orcid.org/0000-0003-0206-0253"},"institutions":[{"id":"https://openalex.org/I86519309","display_name":"The University of Texas at Austin","ror":"https://ror.org/00hj54h04","country_code":"US","type":"education","lineage":["https://openalex.org/I86519309"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"David Harwath","raw_affiliation_strings":["University of Texas at Austin,Department of Computer Science,Texas,USA"],"affiliations":[{"raw_affiliation_string":"University of Texas at Austin,Department of Computer Science,Texas,USA","institution_ids":["https://openalex.org/I86519309"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5002538444"],"corresponding_institution_ids":["https://openalex.org/I86519309"],"apc_list":null,"apc_paid":null,"fwci":2.2948,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.9325321,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":96,"max":98},"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"7"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9264000058174133,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9264000058174133,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.009499999694526196,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11448","display_name":"Face recognition and analysis","score":0.005400000140070915,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/codec","display_name":"Codec","score":0.7490000128746033},{"id":"https://openalex.org/keywords/speech-coding","display_name":"Speech coding","score":0.541700005531311},{"id":"https://openalex.org/keywords/scalability","display_name":"Scalability","score":0.4740000069141388},{"id":"https://openalex.org/keywords/speech-processing","display_name":"Speech processing","score":0.45669999718666077},{"id":"https://openalex.org/keywords/voice-activity-detection","display_name":"Voice activity detection","score":0.4431000053882599},{"id":"https://openalex.org/keywords/acoustic-model","display_name":"Acoustic model","score":0.43860000371932983},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.42080000042915344},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.4203000068664551},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.41429999470710754}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8255000114440918},{"id":"https://openalex.org/C161765866","wikidata":"https://www.wikidata.org/wiki/Q184748","display_name":"Codec","level":2,"score":0.7490000128746033},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.6280999779701233},{"id":"https://openalex.org/C13895895","wikidata":"https://www.wikidata.org/wiki/Q3270773","display_name":"Speech coding","level":2,"score":0.541700005531311},{"id":"https://openalex.org/C48044578","wikidata":"https://www.wikidata.org/wiki/Q727490","display_name":"Scalability","level":2,"score":0.4740000069141388},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.45669999718666077},{"id":"https://openalex.org/C204201278","wikidata":"https://www.wikidata.org/wiki/Q1332614","display_name":"Voice activity detection","level":3,"score":0.4431000053882599},{"id":"https://openalex.org/C155635449","wikidata":"https://www.wikidata.org/wiki/Q4674699","display_name":"Acoustic model","level":3,"score":0.43860000371932983},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.42080000042915344},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.4203000068664551},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.41429999470710754},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4027999937534332},{"id":"https://openalex.org/C78548338","wikidata":"https://www.wikidata.org/wiki/Q2493","display_name":"Data compression","level":2,"score":0.3903999924659729},{"id":"https://openalex.org/C14999030","wikidata":"https://www.wikidata.org/wiki/Q16346","display_name":"Speech synthesis","level":2,"score":0.3808000087738037},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.36489999294281006},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.3564999997615814},{"id":"https://openalex.org/C75217168","wikidata":"https://www.wikidata.org/wiki/Q1105653","display_name":"Codec2","level":4,"score":0.3492000102996826},{"id":"https://openalex.org/C504749915","wikidata":"https://www.wikidata.org/wiki/Q9010971","display_name":"Speech technology","level":3,"score":0.34790000319480896},{"id":"https://openalex.org/C204323151","wikidata":"https://www.wikidata.org/wiki/Q905424","display_name":"Range (aeronautics)","level":2,"score":0.3400000035762787},{"id":"https://openalex.org/C2776182073","wikidata":"https://www.wikidata.org/wiki/Q7575395","display_name":"Speech enhancement","level":3,"score":0.32839998602867126},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.32330000400543213},{"id":"https://openalex.org/C157968479","wikidata":"https://www.wikidata.org/wiki/Q3079876","display_name":"Audio mining","level":4,"score":0.2948000133037567},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.28780001401901245},{"id":"https://openalex.org/C54953205","wikidata":"https://www.wikidata.org/wiki/Q4142201","display_name":"Speech analytics","level":4,"score":0.2718000113964081},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.2660999894142151}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/asru65441.2025.11434617","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru65441.2025.11434617","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","score":0.4162416458129883,"display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[{"id":"https://openalex.org/F4320306076","display_name":"National Science Foundation","ror":"https://ror.org/021nxhr62"}],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":21,"referenced_works":["https://openalex.org/W3041561163","https://openalex.org/W3197580070","https://openalex.org/W3200129129","https://openalex.org/W3209059054","https://openalex.org/W3209984917","https://openalex.org/W3215615641","https://openalex.org/W4281492411","https://openalex.org/W4385807463","https://openalex.org/W4385822668","https://openalex.org/W4385823192","https://openalex.org/W4391021746","https://openalex.org/W4392904154","https://openalex.org/W4392909068","https://openalex.org/W4394862910","https://openalex.org/W4400111385","https://openalex.org/W4402118927","https://openalex.org/W4402670057","https://openalex.org/W4402672020","https://openalex.org/W4415124086","https://openalex.org/W4415433942","https://openalex.org/W7133219565"],"related_works":[],"abstract_inverted_index":{"Recent":[0],"advancements":[1],"in":[2],"neural":[3],"audio":[4,11,56],"codecs":[5],"have":[6],"not":[7],"only":[8],"enabled":[9],"superior":[10],"compression":[12],"but":[13],"also":[14],"enhanced":[15,74],"speech":[16,35,47],"synthesis":[17],"techniques.":[18],"Researchers":[19],"are":[20],"now":[21],"exploring":[22],"their":[23],"potential":[24],"as":[25],"universal":[26],"acoustic":[27],"feature":[28],"extractors":[29],"for":[30],"a":[31],"broader":[32],"range":[33],"of":[34,92],"processing":[36],"tasks.":[37],"Building":[38],"on":[39,54,96],"this":[40,93],"trend,":[41],"we":[42],"introduce":[43],"Codec2Vec,":[44],"the":[45,90,97],"first":[46],"representation":[48],"learning":[49],"framework":[50],"that":[51],"relies":[52],"exclusively":[53],"discrete":[55],"codec":[57],"units.":[58],"This":[59],"approach":[60],"offers":[61],"several":[62],"advantages,":[63],"including":[64],"improved":[65],"data":[66,75],"storage":[67,110],"and":[68,73,117,126],"transmission":[69],"efficiency,":[70],"faster":[71],"training,":[72],"privacy.":[76],"We":[77],"explore":[78],"masked":[79],"prediction":[80],"with":[81],"various":[82],"training":[83,118],"target":[84],"derivation":[85],"strategies":[86],"to":[87,105,114],"thoroughly":[88],"understand":[89],"effectiveness":[91],"framework.":[94],"Evaluated":[95],"SUPERB":[98],"benchmark,":[99],"Codec2Vec":[100],"achieves":[101],"competitive":[102],"performance":[103],"compared":[104],"continuous-input":[106],"models":[107],"while":[108],"reducing":[109],"requirements":[111],"by":[112,120],"up":[113],"$16.5":[115],"\\times$":[116],"time":[119],"$2.3":[121],"\\times$,":[122],"showcasing":[123],"its":[124],"scalability":[125],"efficiency.":[127]},"counts_by_year":[{"year":2026,"cited_by_count":1}],"updated_date":"2026-04-14T08:04:32.555800","created_date":"2026-04-03T00:00:00"}