{"id":"https://openalex.org/W4416250509","doi":"https://doi.org/10.1109/waspaa66052.2025.11230995","title":"JSQA: Speech Quality Assessment with Perceptually-Inspired Contrastive Pretraining Based on JND Audio Pairs","display_name":"JSQA: Speech Quality Assessment with Perceptually-Inspired Contrastive Pretraining Based on JND Audio Pairs","publication_year":2025,"publication_date":"2025-10-12","ids":{"openalex":"https://openalex.org/W4416250509","doi":"https://doi.org/10.1109/waspaa66052.2025.11230995"},"language":null,"primary_location":{"id":"doi:10.1109/waspaa66052.2025.11230995","is_oa":false,"landing_page_url":"https://doi.org/10.1109/waspaa66052.2025.11230995","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5036318320","display_name":"Junyi Fan","orcid":null},"institutions":[{"id":"https://openalex.org/I52357470","display_name":"The Ohio State University","ror":"https://ror.org/00rs6vg23","country_code":"US","type":"education","lineage":["https://openalex.org/I52357470"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Junyi Fan","raw_affiliation_strings":["The Ohio State University,USA"],"affiliations":[{"raw_affiliation_string":"The Ohio State University,USA","institution_ids":["https://openalex.org/I52357470"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5054209447","display_name":"Donald S. Williamson","orcid":"https://orcid.org/0000-0002-7997-5403"},"institutions":[{"id":"https://openalex.org/I52357470","display_name":"The Ohio State University","ror":"https://ror.org/00rs6vg23","country_code":"US","type":"education","lineage":["https://openalex.org/I52357470"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Donald Williamson","raw_affiliation_strings":["The Ohio State University,USA"],"affiliations":[{"raw_affiliation_string":"The Ohio State University,USA","institution_ids":["https://openalex.org/I52357470"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5036318320"],"corresponding_institution_ids":["https://openalex.org/I52357470"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.41887936,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"5"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9365000128746033,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9365000128746033,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11165","display_name":"Image and Video Quality Assessment","score":0.026499999687075615,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.010099999606609344,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/mean-opinion-score","display_name":"Mean opinion score","score":0.6927000284194946},{"id":"https://openalex.org/keywords/encoder","display_name":"Encoder","score":0.5853000283241272},{"id":"https://openalex.org/keywords/perception","display_name":"Perception","score":0.4851999878883362},{"id":"https://openalex.org/keywords/sound-quality","display_name":"Sound quality","score":0.46219998598098755},{"id":"https://openalex.org/keywords/leverage","display_name":"Leverage (statistics)","score":0.4611000120639801},{"id":"https://openalex.org/keywords/metric","display_name":"Metric (unit)","score":0.3824000060558319},{"id":"https://openalex.org/keywords/noise","display_name":"Noise (video)","score":0.35179999470710754},{"id":"https://openalex.org/keywords/embedding","display_name":"Embedding","score":0.3456999957561493}],"concepts":[{"id":"https://openalex.org/C62897895","wikidata":"https://www.wikidata.org/wiki/Q1915482","display_name":"Mean opinion score","level":3,"score":0.6927000284194946},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6517000198364258},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.6502000093460083},{"id":"https://openalex.org/C118505674","wikidata":"https://www.wikidata.org/wiki/Q42586063","display_name":"Encoder","level":2,"score":0.5853000283241272},{"id":"https://openalex.org/C26760741","wikidata":"https://www.wikidata.org/wiki/Q160402","display_name":"Perception","level":2,"score":0.4851999878883362},{"id":"https://openalex.org/C167310288","wikidata":"https://www.wikidata.org/wiki/Q7564808","display_name":"Sound quality","level":2,"score":0.46219998598098755},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.4611000120639801},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.41119998693466187},{"id":"https://openalex.org/C176217482","wikidata":"https://www.wikidata.org/wiki/Q860554","display_name":"Metric (unit)","level":2,"score":0.3824000060558319},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.35179999470710754},{"id":"https://openalex.org/C41608201","wikidata":"https://www.wikidata.org/wiki/Q980509","display_name":"Embedding","level":2,"score":0.3456999957561493},{"id":"https://openalex.org/C2779530757","wikidata":"https://www.wikidata.org/wiki/Q1207505","display_name":"Quality (philosophy)","level":2,"score":0.3361999988555908},{"id":"https://openalex.org/C103278499","wikidata":"https://www.wikidata.org/wiki/Q254465","display_name":"Similarity (geometry)","level":3,"score":0.31929999589920044},{"id":"https://openalex.org/C3020001037","wikidata":"https://www.wikidata.org/wiki/Q836575","display_name":"Quality assessment","level":3,"score":0.2994999885559082},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.2888999879360199},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.2849999964237213},{"id":"https://openalex.org/C2777530160","wikidata":"https://www.wikidata.org/wiki/Q41796","display_name":"Sentence","level":2,"score":0.2791000008583069},{"id":"https://openalex.org/C9940772","wikidata":"https://www.wikidata.org/wiki/Q557399","display_name":"Psychoacoustics","level":3,"score":0.2718000113964081},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.2653999924659729},{"id":"https://openalex.org/C100675267","wikidata":"https://www.wikidata.org/wiki/Q1371624","display_name":"Background noise","level":2,"score":0.2606000006198883},{"id":"https://openalex.org/C13895895","wikidata":"https://www.wikidata.org/wiki/Q3270773","display_name":"Speech coding","level":2,"score":0.2597000002861023}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/waspaa66052.2025.11230995","is_oa":false,"landing_page_url":"https://doi.org/10.1109/waspaa66052.2025.11230995","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[{"id":"https://openalex.org/F4320306076","display_name":"National Science Foundation","ror":"https://ror.org/021nxhr62"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":27,"referenced_works":["https://openalex.org/W1494198834","https://openalex.org/W1552314771","https://openalex.org/W1728888090","https://openalex.org/W2105854852","https://openalex.org/W2111964411","https://openalex.org/W2115117774","https://openalex.org/W2141044085","https://openalex.org/W2289394825","https://openalex.org/W2963403924","https://openalex.org/W2972394484","https://openalex.org/W3097934054","https://openalex.org/W3160506022","https://openalex.org/W3161558238","https://openalex.org/W3163113319","https://openalex.org/W3196475561","https://openalex.org/W3198102247","https://openalex.org/W3202278141","https://openalex.org/W3209059054","https://openalex.org/W4296069264","https://openalex.org/W4297841868","https://openalex.org/W4382935141","https://openalex.org/W4392586953","https://openalex.org/W4392904604","https://openalex.org/W4401609230","https://openalex.org/W4402111227","https://openalex.org/W4408347319","https://openalex.org/W4408356112"],"related_works":[],"abstract_inverted_index":{"Speech":[0],"quality":[1,135],"assessment":[2],"(SQA)":[3],"is":[4,35,168],"often":[5],"used":[6,127],"to":[7,16,51,81,128,132,219],"learn":[8],"a":[9,12,17,33,90],"mapping":[10,34],"from":[11,149,159,174,204],"high-dimensional":[13],"input":[14],"space":[15],"scalar":[18],"that":[19,93,153,184,211],"represents":[20],"the":[21,27,75,175,190,200,220],"mean":[22],"opinion":[23],"score":[24],"(MOS)":[25],"of":[26,47,118],"perceptual":[28,52,68,134,213],"speech":[29],"quality.":[30],"Learning":[31],"such":[32],"challenging":[36],"for":[37,111,178,224],"many":[38,62],"reasons,":[39],"but":[40,61],"largely":[41],"because":[42],"MOS":[43,76,112,179],"exhibits":[44],"high":[45],"levels":[46],"inherent":[48],"variance":[49],"due":[50],"and":[53,138],"experimental-design":[54],"differences.":[55],"Many":[56],"solutions":[57],"have":[58],"been":[59],"proposed,":[60],"approaches":[63],"do":[64],"not":[65],"properly":[66],"incorporate":[67],"factors":[69,214],"into":[70,141,215],"their":[71],"learning":[72,101],"algorithms":[73],"(beyond":[74],"label),":[77],"which":[78,124],"could":[79],"lead":[80],"unsatisfactory":[82],"results.":[83],"To":[84],"this":[85],"end,":[86],"we":[87],"propose":[88],"JSQA,":[89],"two-stage":[91],"framework":[92],"pretrains":[94],"an":[95,130,142],"audio":[96,119,172],"encoder":[97,131,167],"using":[98],"perceptually-guided":[99],"contrastive":[100,186],"on":[102],"just":[103],"noticeable":[104],"difference":[105],"(JND)":[106],"pairs,":[107],"followed":[108],"by":[109,194],"fine-tuning":[110],"prediction.":[113,180],"We":[114],"first":[115],"generate":[116],"pairs":[117,147],"data":[120],"within":[121],"JND":[122,146],"levels,":[123],"are":[125,154],"then":[126],"pretrain":[129],"leverage":[133],"similarity":[136],"information":[137],"map":[139],"it":[140],"embedding":[143],"space.":[144],"The":[145,166],"come":[148],"clean":[150],"LibriSpeech":[151],"utterances":[152],"mixed":[155],"with":[156,171],"background":[157],"noise":[158],"CHiME-3,":[160],"at":[161],"different":[162],"signal-to-noise":[163],"ratios":[164],"(SNRs).":[165],"later":[169],"fine-tuned":[170],"samples":[173],"NISQA":[176],"dataset":[177],"Experimental":[181],"results":[182],"suggest":[183,210],"perceptually-inspired":[185],"pretraining":[187,216],"significantly":[188],"improves":[189],"model":[191],"performance":[192,223],"evaluated":[193],"various":[195],"metrics":[196],"when":[197],"compared":[198],"against":[199],"same":[201],"network":[202],"trained":[203],"scratch":[205],"without":[206],"pretraining.":[207],"These":[208],"findings":[209],"incorporating":[212],"greatly":[217],"contributes":[218],"improvement":[221],"in":[222],"SQA.":[225]},"counts_by_year":[],"updated_date":"2026-04-09T08:11:56.329763","created_date":"2025-11-14T00:00:00"}