{"id":"https://openalex.org/W4416250920","doi":"https://doi.org/10.1109/waspaa66052.2025.11230997","title":"TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining","display_name":"TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining","publication_year":2025,"publication_date":"2025-10-12","ids":{"openalex":"https://openalex.org/W4416250920","doi":"https://doi.org/10.1109/waspaa66052.2025.11230997"},"language":null,"primary_location":{"id":"doi:10.1109/waspaa66052.2025.11230997","is_oa":false,"landing_page_url":"https://doi.org/10.1109/waspaa66052.2025.11230997","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5084326954","display_name":"Paul Primus","orcid":null},"institutions":[{"id":"https://openalex.org/I121883995","display_name":"Johannes Kepler University of Linz","ror":"https://ror.org/052r2xn60","country_code":"AT","type":"education","lineage":["https://openalex.org/I121883995"]}],"countries":["AT"],"is_corresponding":false,"raw_author_name":"Paul Primus","raw_affiliation_strings":["Johannes Kepler University,Institute of Computational Perception (CP-JKU),Austria"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Johannes Kepler University,Institute of Computational Perception (CP-JKU),Austria","institution_ids":["https://openalex.org/I121883995"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5103009549","display_name":"Florian Schmid","orcid":"https://orcid.org/0009-0007-4988-6067"},"institutions":[{"id":"https://openalex.org/I121883995","display_name":"Johannes Kepler University of Linz","ror":"https://ror.org/052r2xn60","country_code":"AT","type":"education","lineage":["https://openalex.org/I121883995"]}],"countries":["AT"],"is_corresponding":false,"raw_author_name":"Florian Schmid","raw_affiliation_strings":["Johannes Kepler University,Institute of Computational Perception (CP-JKU),Austria"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Johannes Kepler University,Institute of Computational Perception (CP-JKU),Austria","institution_ids":["https://openalex.org/I121883995"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5003768123","display_name":"Gerhard Widmer","orcid":"https://orcid.org/0000-0003-3531-1282"},"institutions":[{"id":"https://openalex.org/I121883995","display_name":"Johannes Kepler University of Linz","ror":"https://ror.org/052r2xn60","country_code":"AT","type":"education","lineage":["https://openalex.org/I121883995"]}],"countries":["AT"],"is_corresponding":false,"raw_author_name":"Gerhard Widmer","raw_affiliation_strings":["Johannes Kepler University,Institute of Computational Perception (CP-JKU),Austria"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Johannes Kepler University,Institute of Computational Perception (CP-JKU),Austria","institution_ids":["https://openalex.org/I121883995"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I121883995"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":2,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"5"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.6518999934196472,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.6518999934196472,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.12039999663829803,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.10080000013113022,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/training-set","display_name":"Training set","score":0.38960000872612},{"id":"https://openalex.org/keywords/sound-recording-and-reproduction","display_name":"Sound recording and reproduction","score":0.37929999828338623},{"id":"https://openalex.org/keywords/code","display_name":"Code (set theory)","score":0.3693000078201294},{"id":"https://openalex.org/keywords/range","display_name":"Range (aeronautics)","score":0.3427000045776367},{"id":"https://openalex.org/keywords/language-model","display_name":"Language model","score":0.32359999418258667},{"id":"https://openalex.org/keywords/audio-mining","display_name":"Audio mining","score":0.30219998955726624}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7770000100135803},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.5936999917030334},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.5828999876976013},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5210999846458435},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.38960000872612},{"id":"https://openalex.org/C128422554","wikidata":"https://www.wikidata.org/wiki/Q20077126","display_name":"Sound recording and reproduction","level":2,"score":0.37929999828338623},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.3693000078201294},{"id":"https://openalex.org/C204323151","wikidata":"https://www.wikidata.org/wiki/Q905424","display_name":"Range (aeronautics)","level":2,"score":0.3427000045776367},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.32359999418258667},{"id":"https://openalex.org/C157968479","wikidata":"https://www.wikidata.org/wiki/Q3079876","display_name":"Audio mining","level":4,"score":0.30219998955726624},{"id":"https://openalex.org/C3017588708","wikidata":"https://www.wikidata.org/wiki/Q758901","display_name":"Audio visual","level":2,"score":0.2957000136375427},{"id":"https://openalex.org/C127220857","wikidata":"https://www.wikidata.org/wiki/Q2719318","display_name":"Audio signal processing","level":4,"score":0.28060001134872437},{"id":"https://openalex.org/C59656382","wikidata":"https://www.wikidata.org/wiki/Q191536","display_name":"Conjunction (astronomy)","level":2,"score":0.2736999988555908},{"id":"https://openalex.org/C2778488704","wikidata":"https://www.wikidata.org/wiki/Q15190726","display_name":"Audio equipment","level":2,"score":0.2549999952316284},{"id":"https://openalex.org/C195324797","wikidata":"https://www.wikidata.org/wiki/Q33742","display_name":"Natural language","level":2,"score":0.25200000405311584},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.2517000138759613}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/waspaa66052.2025.11230997","is_oa":false,"landing_page_url":"https://doi.org/10.1109/waspaa66052.2025.11230997","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":35,"referenced_works":["https://openalex.org/W1566289585","https://openalex.org/W2033875152","https://openalex.org/W2593116425","https://openalex.org/W2964213897","https://openalex.org/W3015190346","https://openalex.org/W3015591594","https://openalex.org/W3044495139","https://openalex.org/W3162999565","https://openalex.org/W3196974791","https://openalex.org/W3205475937","https://openalex.org/W4210913346","https://openalex.org/W4221149441","https://openalex.org/W4221157007","https://openalex.org/W4224920041","https://openalex.org/W4224933373","https://openalex.org/W4226442948","https://openalex.org/W4280567182","https://openalex.org/W4283693214","https://openalex.org/W4313014461","https://openalex.org/W4372260310","https://openalex.org/W4372260340","https://openalex.org/W4372260403","https://openalex.org/W4372266552","https://openalex.org/W4372267124","https://openalex.org/W4381786045","https://openalex.org/W4390738640","https://openalex.org/W4392904244","https://openalex.org/W4392908114","https://openalex.org/W4400033239","https://openalex.org/W4400679783","https://openalex.org/W4402112469","https://openalex.org/W4404037229","https://openalex.org/W4408345986","https://openalex.org/W4408353596","https://openalex.org/W4408354146"],"related_works":[],"abstract_inverted_index":{"Learning":[0],"to":[1,56,91,105,112,132,155],"associate":[2],"audio":[3,18,20,24,80,98,141],"with":[4,86,136],"textual":[5],"descriptions":[6,89,135],"is":[7],"valuable":[8],"for":[9],"a":[10,64,74,92,125],"range":[11],"of":[12,77],"tasks,":[13],"including":[14],"pretraining,":[15],"zero-shot":[16],"classification,":[17],"retrieval,":[19],"captioning,":[21],"and":[22,118,143,171,179],"text-conditioned":[23],"generation.":[25],"Existing":[26],"contrastive":[27,127],"language-audio":[28,48],"pretrained":[29],"models":[30,49,104,156],"are":[31,54,175],"typically":[32],"trained":[33,157],"using":[34],"global,":[35],"clip-level":[36],"descriptions,":[37],"which":[38],"provide":[39],"only":[40,158],"weak":[41],"temporal":[42,66,94,137,150],"supervision.":[43,67],"We":[44,100,122],"hypothesize":[45],"that":[46,130,145],"CLAP-like":[47],"\u2013":[50,60],"particularly,":[51],"if":[52],"they":[53],"expected":[55],"produce":[57],"frame-level":[58],"embeddings":[59],"can":[61],"benefit":[62],"from":[63,82],"stronger":[65],"To":[68],"confirm":[69],"our":[70,146,172],"hypothesis,":[71],"we":[72],"curate":[73],"novel":[75],"dataset":[76,170],"approximately":[78],"12,000":[79],"recordings":[81],"Freesound,":[83],"each":[84],"annotated":[85],"single-sentence":[87],"free-text":[88],"linked":[90],"specific":[93],"segment":[95],"in":[96,139],"an":[97,140],"recording.":[99],"use":[101],"large":[102],"language":[103,120],"clean":[106],"these":[107],"annotations":[108],"by":[109],"removing":[110],"references":[111],"non-audible":[113],"events,":[114],"transcribed":[115],"speech,":[116],"typos,":[117],"annotator":[119],"bias.":[121],"further":[123],"propose":[124],"frame-wise":[126],"training":[128],"strategy":[129],"learns":[131],"align":[133],"text":[134],"regions":[138],"recording":[142],"demonstrate":[144],"model":[147],"has":[148],"better":[149],"text-audio":[151],"alignment":[152],"abilities":[153],"compared":[154],"on":[159,164,177],"global":[160],"captions":[161],"when":[162],"evaluated":[163],"the":[165],"AudioSet":[166],"Strong":[167],"benchmark.":[168],"The":[169],"source":[173],"code":[174],"available":[176],"Zenodo":[178],"GitHub,":[180],"respectively.":[181]},"counts_by_year":[{"year":2026,"cited_by_count":2}],"updated_date":"2026-07-15T18:14:33.161393","created_date":"2025-11-14T00:00:00"}