{"id":"https://openalex.org/W2026571716","doi":"https://doi.org/10.1109/icassp.2010.5495129","title":"Maximum entropy based tone modeling for mandarin speech recognition","display_name":"Maximum entropy based tone modeling for mandarin speech recognition","publication_year":2010,"publication_date":"2010-01-01","ids":{"openalex":"https://openalex.org/W2026571716","doi":"https://doi.org/10.1109/icassp.2010.5495129","mag":"2026571716"},"language":"en","primary_location":{"id":"doi:10.1109/icassp.2010.5495129","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp.2010.5495129","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2010 IEEE International Conference on Acoustics, Speech and Signal Processing","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5100772594","display_name":"Xinhao Wang","orcid":"https://orcid.org/0000-0002-0366-7543"},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xinhao Wang","raw_affiliation_strings":["Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, China","Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, 100871, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, China","institution_ids":["https://openalex.org/I20231570"]},{"raw_affiliation_string":"Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, 100871, China","institution_ids":["https://openalex.org/I20231570"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5020291213","display_name":"Yansuo Yu","orcid":"https://orcid.org/0000-0002-2603-7755"},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yansuo Yu","raw_affiliation_strings":["Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, China","Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, 100871, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, China","institution_ids":["https://openalex.org/I20231570"]},{"raw_affiliation_string":"Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, 100871, China","institution_ids":["https://openalex.org/I20231570"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5084685506","display_name":"Xihong Wu","orcid":"https://orcid.org/0009-0004-5236-7469"},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xihong Wu","raw_affiliation_strings":["Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, China","Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, 100871, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, China","institution_ids":["https://openalex.org/I20231570"]},{"raw_affiliation_string":"Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, 100871, China","institution_ids":["https://openalex.org/I20231570"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5112119747","display_name":"Huisheng Chi","orcid":null},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Huisheng Chi","raw_affiliation_strings":["Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, China","Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, 100871, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, China","institution_ids":["https://openalex.org/I20231570"]},{"raw_affiliation_string":"Speech and Hearing Research Center, Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University, Beijing, 100871, China","institution_ids":["https://openalex.org/I20231570"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I20231570"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"4850","last_page":"4853"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9954000115394592,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/mandarin-chinese","display_name":"Mandarin Chinese","score":0.8831348419189453},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.7641406059265137},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7328396439552307},{"id":"https://openalex.org/keywords/tone","display_name":"Tone (literature)","score":0.6323887705802917},{"id":"https://openalex.org/keywords/prosody","display_name":"Prosody","score":0.567762017250061},{"id":"https://openalex.org/keywords/decoding-methods","display_name":"Decoding methods","score":0.5510344505310059},{"id":"https://openalex.org/keywords/word-error-rate","display_name":"Word error rate","score":0.550987958908081},{"id":"https://openalex.org/keywords/principle-of-maximum-entropy","display_name":"Principle of maximum entropy","score":0.4513779878616333},{"id":"https://openalex.org/keywords/entropy","display_name":"Entropy (arrow of time)","score":0.4347043037414551},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4062991738319397},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.15061107277870178}],"concepts":[{"id":"https://openalex.org/C138954614","wikidata":"https://www.wikidata.org/wiki/Q9192","display_name":"Mandarin Chinese","level":2,"score":0.8831348419189453},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.7641406059265137},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7328396439552307},{"id":"https://openalex.org/C2780583480","wikidata":"https://www.wikidata.org/wiki/Q1366327","display_name":"Tone (literature)","level":2,"score":0.6323887705802917},{"id":"https://openalex.org/C542774811","wikidata":"https://www.wikidata.org/wiki/Q10880526","display_name":"Prosody","level":2,"score":0.567762017250061},{"id":"https://openalex.org/C57273362","wikidata":"https://www.wikidata.org/wiki/Q576722","display_name":"Decoding methods","level":2,"score":0.5510344505310059},{"id":"https://openalex.org/C40969351","wikidata":"https://www.wikidata.org/wiki/Q3516228","display_name":"Word error rate","level":2,"score":0.550987958908081},{"id":"https://openalex.org/C9679016","wikidata":"https://www.wikidata.org/wiki/Q1417473","display_name":"Principle of maximum entropy","level":2,"score":0.4513779878616333},{"id":"https://openalex.org/C106301342","wikidata":"https://www.wikidata.org/wiki/Q4117933","display_name":"Entropy (arrow of time)","level":2,"score":0.4347043037414551},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4062991738319397},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.15061107277870178},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C41895202","wikidata":"https://www.wikidata.org/wiki/Q8162","display_name":"Linguistics","level":1,"score":0.0},{"id":"https://openalex.org/C142362112","wikidata":"https://www.wikidata.org/wiki/Q735","display_name":"Art","level":0,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0},{"id":"https://openalex.org/C124952713","wikidata":"https://www.wikidata.org/wiki/Q8242","display_name":"Literature","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icassp.2010.5495129","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp.2010.5495129","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2010 IEEE International Conference on Acoustics, Speech and Signal Processing","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.4699999988079071,"id":"https://metadata.un.org/sdg/4","display_name":"Quality Education"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":14,"referenced_works":["https://openalex.org/W9334768","https://openalex.org/W13802415","https://openalex.org/W188468770","https://openalex.org/W1648698152","https://openalex.org/W2046932483","https://openalex.org/W2057399676","https://openalex.org/W2096175520","https://openalex.org/W2146423738","https://openalex.org/W2150314414","https://openalex.org/W2154860986","https://openalex.org/W2160899562","https://openalex.org/W6637086781","https://openalex.org/W6674650171","https://openalex.org/W6684065265"],"related_works":["https://openalex.org/W2393887907","https://openalex.org/W2347443630","https://openalex.org/W2481138693","https://openalex.org/W2388826840","https://openalex.org/W2379831327","https://openalex.org/W2386691339","https://openalex.org/W156219719","https://openalex.org/W2365805939","https://openalex.org/W2287147624","https://openalex.org/W2163874654"],"abstract_inverted_index":{"To":[0],"explore":[1],"the":[2,13,24,48,65,68,74,77,87,97,102,105,111],"potential":[3],"of":[4,35,104,113,122],"prosody":[5],"for":[6],"Mandarin":[7],"speech":[8,114],"recognition,":[9],"this":[10],"paper":[11],"addresses":[12],"tone":[14,53],"modeling":[15],"problem":[16],"and":[17,32,118],"its":[18,39],"integration":[19],"issue.":[20],"This":[21],"study":[22],"adopts":[23],"maximum":[25],"entropy":[26],"approach":[27],"to":[28,38,64,85],"capture":[29],"both":[30],"acoustic":[31],"lexical":[33],"characteristics":[34],"tones":[36],"due":[37],"flexibility":[40],"in":[41],"handling":[42],"multiple":[43],"interacting":[44],"features.":[45],"Moreover,":[46],"considering":[47],"phoneme":[49,56],"factor,":[50],"besides":[51],"a":[52,55],"model,":[54],"dependent":[57],"model":[58,66],"is":[59],"also":[60],"constructed.":[61],"With":[62],"regard":[63],"integration,":[67],"presented":[69,106],"models":[70],"are":[71,83],"integrated":[72],"into":[73],"recognizer":[75],"under":[76],"one-pass":[78],"decoding":[79],"framework,":[80],"where":[81],"they":[82],"used":[84],"prune":[86],"active":[88],"word-final":[89],"states":[90],"during":[91],"beam":[92],"search.":[93],"Experimental":[94],"results":[95],"on":[96],"HUB-4":[98],"evaluation":[99],"material":[100],"reveal":[101],"effectiveness":[103],"models.":[107],"They":[108],"significantly":[109],"improve":[110],"performance":[112],"recognition":[115],"with":[116],"7.6%":[117],"11.1%":[119],"relative":[120],"reduction":[121],"character":[123],"error":[124],"rate.":[125]},"counts_by_year":[{"year":2013,"cited_by_count":1}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}