{"id":"https://openalex.org/W7148504483","doi":"https://doi.org/10.1109/asru65441.2025.11434708","title":"KAN-AST: Kolmogorov-Arnold Network based Audio Spectrogram Transformer for Audio Classification","display_name":"KAN-AST: Kolmogorov-Arnold Network based Audio Spectrogram Transformer for Audio Classification","publication_year":2025,"publication_date":"2025-12-06","ids":{"openalex":"https://openalex.org/W7148504483","doi":"https://doi.org/10.1109/asru65441.2025.11434708"},"language":null,"primary_location":{"id":"doi:10.1109/asru65441.2025.11434708","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru65441.2025.11434708","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5114218708","display_name":"Phuong Tuan Dat","orcid":null},"institutions":[{"id":"https://openalex.org/I115228651","display_name":"Agency for Science, Technology and Research","ror":"https://ror.org/036wvzt09","country_code":"SG","type":"government","lineage":["https://openalex.org/I115228651"]},{"id":"https://openalex.org/I3005327000","display_name":"Institute for Infocomm Research","ror":"https://ror.org/053rfa017","country_code":"SG","type":"facility","lineage":["https://openalex.org/I115228651","https://openalex.org/I3005327000","https://openalex.org/I91275662"]}],"countries":["SG"],"is_corresponding":false,"raw_author_name":"Phuong Tuan Dat","raw_affiliation_strings":["Institute for Infocomm Research (I2R) Agency for Science, Technology and Research (A&#x002A;STAR),Singapore"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute for Infocomm Research (I2R) Agency for Science, Technology and Research (A&#x002A;STAR),Singapore","institution_ids":["https://openalex.org/I115228651","https://openalex.org/I3005327000"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5110125670","display_name":"Tran Huy Dat","orcid":null},"institutions":[{"id":"https://openalex.org/I115228651","display_name":"Agency for Science, Technology and Research","ror":"https://ror.org/036wvzt09","country_code":"SG","type":"government","lineage":["https://openalex.org/I115228651"]},{"id":"https://openalex.org/I3005327000","display_name":"Institute for Infocomm Research","ror":"https://ror.org/053rfa017","country_code":"SG","type":"facility","lineage":["https://openalex.org/I115228651","https://openalex.org/I3005327000","https://openalex.org/I91275662"]}],"countries":["SG"],"is_corresponding":false,"raw_author_name":"Tran Huy Dat","raw_affiliation_strings":["Institute for Infocomm Research (I2R) Agency for Science, Technology and Research (A&#x002A;STAR),Singapore"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute for Infocomm Research (I2R) Agency for Science, Technology and Research (A&#x002A;STAR),Singapore","institution_ids":["https://openalex.org/I115228651","https://openalex.org/I3005327000"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.845300018787384,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.845300018787384,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12357","display_name":"Digital Media Forensic Detection","score":0.01720000058412552,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.010499999858438969,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/spectrogram","display_name":"Spectrogram","score":0.734000027179718},{"id":"https://openalex.org/keywords/audio-signal","display_name":"Audio signal","score":0.4212000072002411},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.3285999894142151},{"id":"https://openalex.org/keywords/transformer","display_name":"Transformer","score":0.3271999955177307},{"id":"https://openalex.org/keywords/audio-signal-processing","display_name":"Audio signal processing","score":0.3037000000476837},{"id":"https://openalex.org/keywords/digital-audio","display_name":"Digital audio","score":0.2971999943256378}],"concepts":[{"id":"https://openalex.org/C45273575","wikidata":"https://www.wikidata.org/wiki/Q578970","display_name":"Spectrogram","level":2,"score":0.734000027179718},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6514999866485596},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.5227000117301941},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4575999975204468},{"id":"https://openalex.org/C64922751","wikidata":"https://www.wikidata.org/wiki/Q4650799","display_name":"Audio signal","level":3,"score":0.4212000072002411},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.3285999894142151},{"id":"https://openalex.org/C66322947","wikidata":"https://www.wikidata.org/wiki/Q11658","display_name":"Transformer","level":3,"score":0.3271999955177307},{"id":"https://openalex.org/C127220857","wikidata":"https://www.wikidata.org/wiki/Q2719318","display_name":"Audio signal processing","level":4,"score":0.3037000000476837},{"id":"https://openalex.org/C87687168","wikidata":"https://www.wikidata.org/wiki/Q173114","display_name":"Digital audio","level":4,"score":0.2971999943256378},{"id":"https://openalex.org/C52622490","wikidata":"https://www.wikidata.org/wiki/Q1026626","display_name":"Feature extraction","level":2,"score":0.27219998836517334},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.266400009393692},{"id":"https://openalex.org/C13895895","wikidata":"https://www.wikidata.org/wiki/Q3270773","display_name":"Speech coding","level":2,"score":0.2531000077724457},{"id":"https://openalex.org/C104267543","wikidata":"https://www.wikidata.org/wiki/Q208163","display_name":"Signal processing","level":3,"score":0.2529999911785126},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.2529999911785126},{"id":"https://openalex.org/C2778263558","wikidata":"https://www.wikidata.org/wiki/Q46384","display_name":"Microphone","level":3,"score":0.25200000405311584}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/asru65441.2025.11434708","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru65441.2025.11434708","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":11,"referenced_works":["https://openalex.org/W1494198834","https://openalex.org/W1498436455","https://openalex.org/W2040870580","https://openalex.org/W2137983211","https://openalex.org/W2146334809","https://openalex.org/W2593116425","https://openalex.org/W2936774411","https://openalex.org/W3094550259","https://openalex.org/W3196974791","https://openalex.org/W3205743929","https://openalex.org/W4386918931"],"related_works":[],"abstract_inverted_index":{"Recently,":[0],"Kolmogorov-Arnold":[1,98],"Networks":[2],"(KANs)":[3],"have":[4],"emerged":[5],"as":[6],"a":[7],"promising":[8],"alternative":[9],"to":[10,62],"enhance":[11],"the":[12,48,83,96,116,119,123],"performance":[13,117],"of":[14,19,37,86,118,125],"Multi-Layer":[15],"Perceptrons":[16],"(MLPs).":[17],"Instead":[18],"relying":[20],"on":[21,59],"traditional":[22],"linear":[23],"weights,":[24],"KANs":[25,61,87,114,126],"utilize":[26],"spline-parametrized":[27],"univariate":[28],"functions,":[29],"significantly":[30],"improving":[31,89],"interpretability":[32],"and":[33,51,65],"enabling":[34],"dynamic":[35],"learning":[36],"activation":[38],"patterns.":[39],"This":[40],"novel":[41],"approach":[42],"has":[43,52,68],"garnered":[44],"considerable":[45],"interest":[46],"from":[47],"AI":[49],"community":[50],"seen":[53],"rapid":[54],"global":[55],"adoption.":[56],"While":[57],"research":[58],"applying":[60],"Machine":[63],"Learning":[64],"Computer":[66],"Vision":[67],"expanded,":[69],"their":[70],"application":[71],"in":[72,88,127],"audio":[73,92,105,129],"processing":[74],"remains":[75],"largely":[76],"unexplored.":[77],"In":[78],"this":[79],"paper,":[80],"we":[81],"investigate":[82],"untapped":[84],"potential":[85,124],"models":[90],"for":[91,104],"tasks.":[93],"We":[94],"propose":[95],"first":[97],"Network-based":[99],"Audio":[100],"Spectrogram":[101],"Transformer":[102],"(KAN-AST)":[103],"classification.":[106,130],"Our":[107],"study":[108],"demonstrates":[109],"how":[110],"replacing":[111],"MLPs":[112],"with":[113],"enhances":[115],"AST":[120],"model,":[121],"highlighting":[122],"advancing":[128]},"counts_by_year":[],"updated_date":"2026-07-22T07:51:19.307946","created_date":"2026-04-03T00:00:00"}