{"id":"https://openalex.org/W4391021508","doi":"https://doi.org/10.1109/asru57964.2023.10389696","title":"Multitask Learning Model with Text and Speech Representation for Fine-Grained Speech Scoring","display_name":"Multitask Learning Model with Text and Speech Representation for Fine-Grained Speech Scoring","publication_year":2023,"publication_date":"2023-12-16","ids":{"openalex":"https://openalex.org/W4391021508","doi":"https://doi.org/10.1109/asru57964.2023.10389696"},"language":"en","primary_location":{"id":"doi:10.1109/asru57964.2023.10389696","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru57964.2023.10389696","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5100746883","display_name":"Seongjin Park","orcid":"https://orcid.org/0000-0001-5235-4757"},"institutions":[{"id":"https://openalex.org/I1341030882","display_name":"Educational Testing Service","ror":"https://ror.org/03b5q4637","country_code":"US","type":"nonprofit","lineage":["https://openalex.org/I1341030882"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Seongjin Park","raw_affiliation_strings":["Educational Testing Service"],"affiliations":[{"raw_affiliation_string":"Educational Testing Service","institution_ids":["https://openalex.org/I1341030882"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5030738204","display_name":"Rutuja Ubale","orcid":null},"institutions":[{"id":"https://openalex.org/I1341030882","display_name":"Educational Testing Service","ror":"https://ror.org/03b5q4637","country_code":"US","type":"nonprofit","lineage":["https://openalex.org/I1341030882"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Rutuja Ubale","raw_affiliation_strings":["Educational Testing Service"],"affiliations":[{"raw_affiliation_string":"Educational Testing Service","institution_ids":["https://openalex.org/I1341030882"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5100746883"],"corresponding_institution_ids":["https://openalex.org/I1341030882"],"apc_list":null,"apc_paid":null,"fwci":0.6952,"has_fulltext":false,"cited_by_count":4,"citation_normalized_percentile":{"value":0.77222203,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":94,"max":96},"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"7"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9990000128746033,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9990000128746033,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10181","display_name":"Natural Language Processing Techniques","score":0.9854000210762024,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12031","display_name":"Speech and dialogue systems","score":0.9818000197410583,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7872790098190308},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.5956600308418274},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.5782244205474854},{"id":"https://openalex.org/keywords/multi-task-learning","display_name":"Multi-task learning","score":0.5590267181396484},{"id":"https://openalex.org/keywords/natural-language-processing","display_name":"Natural language processing","score":0.512846052646637},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.48705270886421204},{"id":"https://openalex.org/keywords/feature-learning","display_name":"Feature learning","score":0.4354534447193146},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.14691001176834106}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7872790098190308},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.5956600308418274},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.5782244205474854},{"id":"https://openalex.org/C28006648","wikidata":"https://www.wikidata.org/wiki/Q6934509","display_name":"Multi-task learning","level":3,"score":0.5590267181396484},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.512846052646637},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.48705270886421204},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.4354534447193146},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.14691001176834106},{"id":"https://openalex.org/C199539241","wikidata":"https://www.wikidata.org/wiki/Q7748","display_name":"Law","level":1,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0},{"id":"https://openalex.org/C17744445","wikidata":"https://www.wikidata.org/wiki/Q36442","display_name":"Political science","level":0,"score":0.0},{"id":"https://openalex.org/C94625758","wikidata":"https://www.wikidata.org/wiki/Q7163","display_name":"Politics","level":2,"score":0.0},{"id":"https://openalex.org/C187736073","wikidata":"https://www.wikidata.org/wiki/Q2920921","display_name":"Management","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/asru57964.2023.10389696","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru57964.2023.10389696","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":21,"referenced_works":["https://openalex.org/W103312509","https://openalex.org/W316160580","https://openalex.org/W1032614754","https://openalex.org/W1522301498","https://openalex.org/W1982960403","https://openalex.org/W2010821160","https://openalex.org/W2122364000","https://openalex.org/W2395066838","https://openalex.org/W2760649715","https://openalex.org/W2803039862","https://openalex.org/W2901593227","https://openalex.org/W2939437245","https://openalex.org/W2979826702","https://openalex.org/W2985750830","https://openalex.org/W3209059054","https://openalex.org/W3216991347","https://openalex.org/W4223651314","https://openalex.org/W4311000453","https://openalex.org/W4319586625","https://openalex.org/W6631362777","https://openalex.org/W6780218876"],"related_works":["https://openalex.org/W2237537322","https://openalex.org/W2950678851","https://openalex.org/W4301248618","https://openalex.org/W2165343651","https://openalex.org/W2242427765","https://openalex.org/W2075830955","https://openalex.org/W2343790552","https://openalex.org/W3111398917","https://openalex.org/W4385507578","https://openalex.org/W2949157572"],"abstract_inverted_index":{"The":[0],"goal":[1],"of":[2,18,62,76],"the":[3,60,74],"present":[4],"study":[5],"is":[6],"to":[7,72,103],"evaluate":[8],"whether":[9],"computational":[10],"models":[11,64,71,100],"can":[12],"accurately":[13],"approximate":[14],"human":[15],"perceptual":[16],"judgments":[17],"language":[19,38],"learners\u2019":[20],"proficiency.":[21],"To":[22],"do":[23],"so,":[24],"we":[25],"develop":[26],"an":[27],"end-to-end":[28],"multi-task":[29,63,81,89],"model":[30,68],"that":[31,87,110,118],"predicts":[32],"three":[33],"sub-level":[34],"proficiency":[35],"scores":[36],"(delivery,":[37],"use,":[39],"and":[40,52,69,80,91,115],"topic":[41],"development)":[42],"as":[43,45],"well":[44],"a":[46,66,88,95],"holistic":[47],"score":[48],"based":[49],"on":[50],"speech":[51,111],"text":[53],"representations":[54],"leveraging":[55],"transformer-based":[56,78,92],"architectures.":[57],"We":[58],"compared":[59],"performance":[61],"with":[65],"baseline":[67,99],"single-task":[70],"examine":[73],"benefits":[75],"using":[77],"architectures":[79],"learning":[82],"setting.":[83],"Our":[84],"results":[85],"suggest":[86],"setting":[90],"models,":[93],"particularly":[94],"bi-modal":[96],"model,":[97],"outperform":[98],"in":[101,122],"generalizing":[102],"unseen":[104],"data.":[105],"Furthermore,":[106],"our":[107],"findings":[108],"indicate":[109],"may":[112],"contain":[113],"syntactic":[114],"semantic":[116],"information":[117],"should":[119],"be":[120],"explored":[121],"future":[123],"studies.":[124]},"counts_by_year":[{"year":2025,"cited_by_count":2},{"year":2024,"cited_by_count":2}],"updated_date":"2026-04-03T22:45:19.894376","created_date":"2025-10-10T00:00:00"}