{"id":"https://openalex.org/W94403175","doi":"https://doi.org/10.21437/eurospeech.2003-430","title":"Modeling Cantonese pronunciation variation by acoustic model refinement","display_name":"Modeling Cantonese pronunciation variation by acoustic model refinement","publication_year":2003,"publication_date":"2003-09-01","ids":{"openalex":"https://openalex.org/W94403175","doi":"https://doi.org/10.21437/eurospeech.2003-430","mag":"94403175"},"language":"en","primary_location":{"id":"doi:10.21437/eurospeech.2003-430","is_oa":false,"landing_page_url":"https://doi.org/10.21437/eurospeech.2003-430","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"8th European Conference on Speech Communication and Technology (Eurospeech 2003)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5073771234","display_name":"Patgi Kam","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Patgi Kam","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5001795601","display_name":"Tan Lee","orcid":"https://orcid.org/0000-0002-7089-3436"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Tan Lee","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5065394791","display_name":"Frank K. Soong","orcid":"https://orcid.org/0000-0002-9088-3577"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Frank K. Soong","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5073771234"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":2.8078,"has_fulltext":false,"cited_by_count":8,"citation_normalized_percentile":{"value":0.90653428,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1477","last_page":"1480"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9977999925613403,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9977999925613403,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10403","display_name":"Phonetics and Phonology Research","score":0.9952999949455261,"subfield":{"id":"https://openalex.org/subfields/3205","display_name":"Experimental and Cognitive Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9781000018119812,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/pronunciation","display_name":"Pronunciation","score":0.8263698816299438},{"id":"https://openalex.org/keywords/variation","display_name":"Variation (astronomy)","score":0.7071278691291809},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6765578985214233},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.4823693335056305},{"id":"https://openalex.org/keywords/acoustic-model","display_name":"Acoustic model","score":0.4116554260253906},{"id":"https://openalex.org/keywords/linguistics","display_name":"Linguistics","score":0.22336000204086304},{"id":"https://openalex.org/keywords/speech-processing","display_name":"Speech processing","score":0.11526015400886536},{"id":"https://openalex.org/keywords/astronomy","display_name":"Astronomy","score":0.05626770853996277}],"concepts":[{"id":"https://openalex.org/C2780844864","wikidata":"https://www.wikidata.org/wiki/Q184377","display_name":"Pronunciation","level":2,"score":0.8263698816299438},{"id":"https://openalex.org/C2778334786","wikidata":"https://www.wikidata.org/wiki/Q1586270","display_name":"Variation (astronomy)","level":2,"score":0.7071278691291809},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6765578985214233},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.4823693335056305},{"id":"https://openalex.org/C155635449","wikidata":"https://www.wikidata.org/wiki/Q4674699","display_name":"Acoustic model","level":3,"score":0.4116554260253906},{"id":"https://openalex.org/C41895202","wikidata":"https://www.wikidata.org/wiki/Q8162","display_name":"Linguistics","level":1,"score":0.22336000204086304},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.11526015400886536},{"id":"https://openalex.org/C1276947","wikidata":"https://www.wikidata.org/wiki/Q333","display_name":"Astronomy","level":1,"score":0.05626770853996277},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.21437/eurospeech.2003-430","is_oa":false,"landing_page_url":"https://doi.org/10.21437/eurospeech.2003-430","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"8th European Conference on Speech Communication and Technology (Eurospeech 2003)","raw_type":"proceedings-article"},{"id":"pmh:oai:CiteSeerX.psu:10.1.1.80.2253","is_oa":false,"landing_page_url":"http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.80.2253","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"http://www.ee.cuhk.edu.hk/~tanlee/paper/EUROSPEECH2003-PronM.pdf","raw_type":"text"}],"best_oa_location":null,"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/4","display_name":"Quality Education","score":0.49000000953674316}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":5,"referenced_works":["https://openalex.org/W1607515033","https://openalex.org/W1996545497","https://openalex.org/W2131463853","https://openalex.org/W2403081842","https://openalex.org/W4285719527"],"related_works":["https://openalex.org/W2044408773","https://openalex.org/W2130717063","https://openalex.org/W4383605217","https://openalex.org/W2533508831","https://openalex.org/W2742699532","https://openalex.org/W4281389974","https://openalex.org/W1911859126","https://openalex.org/W2158598479","https://openalex.org/W2325482719","https://openalex.org/W2397926608"],"abstract_inverted_index":{"Pronunciation":[0],"variations":[1],"can":[2,34],"be":[3,35,65,143],"roughly":[4],"classified":[5],"into":[6],"two":[7],"types:":[8],"a":[9,13,22,28,32,44,53,60,153],"phone":[10,18,24,42,61,75],"change":[11,15,19,33,50],"or":[12,56,72,130],"sound":[14,49,88],"[1][2].":[16],"A":[17,48],"happens":[20,51],"when":[21],"canonical":[23],"is":[25],"produced":[26],"as":[27],"different":[29,146],"phone.":[30,47],"Such":[31],"modeled":[36,66],"by":[37,68,90],"converting":[38],"the":[39,70,73,82,93,101,104,109,113,119,173],"baseform":[40,71,102,114],"(standard)":[41],"to":[43,80,85,145],"surfaceform":[45,74,105,120],"(actual)":[46],"at":[52],"lower,":[54],"phonetic":[55],"subphonetic":[57],"level":[58],"within":[59],"and":[62,103,139,166],"it":[63],"cannot":[64],"well":[67],"either":[69],"alone.":[76],"We":[77],"propose":[78],"here":[79],"refine":[81],"acoustic":[83,126],"models":[84,115,127],"cope":[86],"with":[87],"changes":[89],"(1)":[91],"sharing":[92,129],"Gaussian":[94],"mixture":[95,110],"components":[96,111],"of":[97,112,118,163],"HMM":[98],"states":[99],"in":[100,141,152],"models;":[106,121],"(2)":[107],"adapting":[108],"towards":[116],"those":[117],"(3)":[122],"selectively":[123],"reconstructing":[124],"new":[125],"through":[128],"adapting.":[131],"The":[132],"proposed":[133],"pronunciation":[134],"modeling":[135],"algorithms":[136],"are":[137],"generic":[138],"can,":[140],"principle,":[142],"applied":[144],"languages.":[147],"Specifically,":[148],"they":[149],"were":[150],"tested":[151],"Cantonese":[154],"speech":[155],"recognition":[156],"database.":[157],"Relative":[158],"word":[159],"error":[160],"rate":[161],"reductions":[162],"5.45%,":[164],"2.53%,":[165],"3.04":[167],"%":[168],"have":[169],"been":[170],"achieved":[171],"using":[172],"three":[174],"approaches,":[175],"respectively.":[176],"1.":[177]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2025-10-10T00:00:00"}