{"id":"https://openalex.org/W2113950833","doi":"https://doi.org/10.1109/icassp.2011.5947478","title":"Acoustic data sharing for Afghan and Persian languages","display_name":"Acoustic data sharing for Afghan and Persian languages","publication_year":2011,"publication_date":"2011-05-01","ids":{"openalex":"https://openalex.org/W2113950833","doi":"https://doi.org/10.1109/icassp.2011.5947478","mag":"2113950833"},"language":"en","primary_location":{"id":"doi:10.1109/icassp.2011.5947478","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp.2011.5947478","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5103079610","display_name":"Arindam Mandal","orcid":"https://orcid.org/0000-0001-5944-2733"},"institutions":[{"id":"https://openalex.org/I1298353152","display_name":"SRI International","ror":"https://ror.org/05s570m15","country_code":"US","type":"nonprofit","lineage":["https://openalex.org/I1298353152"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Arindam Mandal","raw_affiliation_strings":["Speech Technology and Research Laboratory, SRI International, Inc., Menlo Park, CA, USA","[Speech Technology and Research Laboratory, SRI International, Menlo Park, CA, USA]"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Speech Technology and Research Laboratory, SRI International, Inc., Menlo Park, CA, USA","institution_ids":["https://openalex.org/I1298353152"]},{"raw_affiliation_string":"[Speech Technology and Research Laboratory, SRI International, Menlo Park, CA, USA]","institution_ids":["https://openalex.org/I1298353152"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5060715364","display_name":"Dimitra Vergyri","orcid":null},"institutions":[{"id":"https://openalex.org/I1298353152","display_name":"SRI International","ror":"https://ror.org/05s570m15","country_code":"US","type":"nonprofit","lineage":["https://openalex.org/I1298353152"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Dimitra Vergyri","raw_affiliation_strings":["Speech Technology and Research Laboratory, SRI International, Inc., Menlo Park, CA, USA","[Speech Technology and Research Laboratory, SRI International, Menlo Park, CA, USA]"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Speech Technology and Research Laboratory, SRI International, Inc., Menlo Park, CA, USA","institution_ids":["https://openalex.org/I1298353152"]},{"raw_affiliation_string":"[Speech Technology and Research Laboratory, SRI International, Menlo Park, CA, USA]","institution_ids":["https://openalex.org/I1298353152"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5076998541","display_name":"Murat Akbacak","orcid":null},"institutions":[{"id":"https://openalex.org/I1298353152","display_name":"SRI International","ror":"https://ror.org/05s570m15","country_code":"US","type":"nonprofit","lineage":["https://openalex.org/I1298353152"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Murat Akbacak","raw_affiliation_strings":["Speech Technology and Research Laboratory, SRI International, Inc., Menlo Park, CA, USA","[Speech Technology and Research Laboratory, SRI International, Menlo Park, CA, USA]"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Speech Technology and Research Laboratory, SRI International, Inc., Menlo Park, CA, USA","institution_ids":["https://openalex.org/I1298353152"]},{"raw_affiliation_string":"[Speech Technology and Research Laboratory, SRI International, Menlo Park, CA, USA]","institution_ids":["https://openalex.org/I1298353152"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5066868305","display_name":"Colleen Richey","orcid":null},"institutions":[{"id":"https://openalex.org/I1298353152","display_name":"SRI International","ror":"https://ror.org/05s570m15","country_code":"US","type":"nonprofit","lineage":["https://openalex.org/I1298353152"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Colleen Richey","raw_affiliation_strings":["Speech Technology and Research Laboratory, SRI International, Inc., Menlo Park, CA, USA","[Speech Technology and Research Laboratory, SRI International, Menlo Park, CA, USA]"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Speech Technology and Research Laboratory, SRI International, Inc., Menlo Park, CA, USA","institution_ids":["https://openalex.org/I1298353152"]},{"raw_affiliation_string":"[Speech Technology and Research Laboratory, SRI International, Menlo Park, CA, USA]","institution_ids":["https://openalex.org/I1298353152"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5022894728","display_name":"Andreas Kathol","orcid":null},"institutions":[{"id":"https://openalex.org/I1298353152","display_name":"SRI International","ror":"https://ror.org/05s570m15","country_code":"US","type":"nonprofit","lineage":["https://openalex.org/I1298353152"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Andreas Kathol","raw_affiliation_strings":["Speech Technology and Research Laboratory, SRI International, Inc., Menlo Park, CA, USA","[Speech Technology and Research Laboratory, SRI International, Menlo Park, CA, USA]"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Speech Technology and Research Laboratory, SRI International, Inc., Menlo Park, CA, USA","institution_ids":["https://openalex.org/I1298353152"]},{"raw_affiliation_string":"[Speech Technology and Research Laboratory, SRI International, Menlo Park, CA, USA]","institution_ids":["https://openalex.org/I1298353152"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I1298353152"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":6,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"4996","last_page":"4999"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9994000196456909,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9986000061035156,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.825278639793396},{"id":"https://openalex.org/keywords/word-error-rate","display_name":"Word error rate","score":0.6903411746025085},{"id":"https://openalex.org/keywords/persian","display_name":"Persian","score":0.6622968912124634},{"id":"https://openalex.org/keywords/natural-language-processing","display_name":"Natural language processing","score":0.5656418204307556},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5247780680656433},{"id":"https://openalex.org/keywords/language-model","display_name":"Language model","score":0.5199800133705139},{"id":"https://openalex.org/keywords/hidden-markov-model","display_name":"Hidden Markov model","score":0.4874298870563507},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.4850158393383026},{"id":"https://openalex.org/keywords/word","display_name":"Word (group theory)","score":0.4656337797641754},{"id":"https://openalex.org/keywords/acoustic-model","display_name":"Acoustic model","score":0.4340323209762573},{"id":"https://openalex.org/keywords/training-set","display_name":"Training set","score":0.4308604896068573},{"id":"https://openalex.org/keywords/afghan","display_name":"Afghan","score":0.4307031035423279},{"id":"https://openalex.org/keywords/linguistics","display_name":"Linguistics","score":0.19922751188278198},{"id":"https://openalex.org/keywords/speech-processing","display_name":"Speech processing","score":0.17131614685058594}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.825278639793396},{"id":"https://openalex.org/C40969351","wikidata":"https://www.wikidata.org/wiki/Q3516228","display_name":"Word error rate","level":2,"score":0.6903411746025085},{"id":"https://openalex.org/C2776527531","wikidata":"https://www.wikidata.org/wiki/Q9168","display_name":"Persian","level":2,"score":0.6622968912124634},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.5656418204307556},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5247780680656433},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.5199800133705139},{"id":"https://openalex.org/C23224414","wikidata":"https://www.wikidata.org/wiki/Q176769","display_name":"Hidden Markov model","level":2,"score":0.4874298870563507},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.4850158393383026},{"id":"https://openalex.org/C90805587","wikidata":"https://www.wikidata.org/wiki/Q10944557","display_name":"Word (group theory)","level":2,"score":0.4656337797641754},{"id":"https://openalex.org/C155635449","wikidata":"https://www.wikidata.org/wiki/Q4674699","display_name":"Acoustic model","level":3,"score":0.4340323209762573},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.4308604896068573},{"id":"https://openalex.org/C2780587734","wikidata":"https://www.wikidata.org/wiki/Q383030","display_name":"Afghan","level":2,"score":0.4307031035423279},{"id":"https://openalex.org/C41895202","wikidata":"https://www.wikidata.org/wiki/Q8162","display_name":"Linguistics","level":1,"score":0.19922751188278198},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.17131614685058594},{"id":"https://openalex.org/C27206212","wikidata":"https://www.wikidata.org/wiki/Q34178","display_name":"Theology","level":1,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icassp.2011.5947478","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp.2011.5947478","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.7900000214576721,"display_name":"Quality Education","id":"https://metadata.un.org/sdg/4"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":13,"referenced_works":["https://openalex.org/W73572011","https://openalex.org/W180168658","https://openalex.org/W1846073453","https://openalex.org/W1956164794","https://openalex.org/W1966926213","https://openalex.org/W2018466475","https://openalex.org/W2033436836","https://openalex.org/W2100969003","https://openalex.org/W2129480666","https://openalex.org/W2157536499","https://openalex.org/W6607325517","https://openalex.org/W6679481322","https://openalex.org/W7005464805"],"related_works":["https://openalex.org/W1566315437","https://openalex.org/W2594897229","https://openalex.org/W4221142855","https://openalex.org/W2151348424","https://openalex.org/W2050138804","https://openalex.org/W2129812225","https://openalex.org/W4290708361","https://openalex.org/W2523799048","https://openalex.org/W2155620340","https://openalex.org/W1494910745"],"abstract_inverted_index":{"In":[0],"this":[1],"work,":[2],"we":[3,28],"compare":[4],"several":[5],"known":[6],"approaches":[7],"for":[8,12,36,61,102],"multilingual":[9,33,67,80],"acoustic":[10,34],"modeling":[11],"three":[13],"languages,":[14,65],"Dari,":[15],"Farsi":[16],"and":[17,39,105],"Pashto,":[18],"which":[19,86],"are":[20,87],"of":[21,46,56,63,108],"recent":[22],"geo-political":[23],"interest.":[24],"We":[25,75],"demonstrate":[26],"that":[27,45],"can":[29],"train":[30],"a":[31,53],"single":[32],"model":[35,68,81],"these":[37,64],"languages":[38],"achieve":[40,90],"recognition":[41,94],"accuracy":[42],"close":[43],"to":[44,82,89,98],"monolingual":[47,73,100],"(or":[48],"language-dependent)":[49],"models.":[50],"When":[51],"only":[52],"small":[54,106],"amount":[55],"training":[57,109],"data":[58,110],"is":[59],"available":[60],"each":[62],"the":[66,72,79,99],"may":[69],"even":[70],"outperform":[71],"ones.":[74],"also":[76],"explore":[77],"adapting":[78],"target":[83],"language":[84],"data,":[85],"able":[88],"improved":[91],"automatic":[92],"speech":[93],"(ASR)":[95],"performance":[96],"compared":[97],"models":[101],"both":[103],"large":[104],"amounts":[107],"by":[111],"3%":[112],"relative":[113],"word":[114],"error":[115],"rate":[116],"(WER).":[117]},"counts_by_year":[{"year":2024,"cited_by_count":1},{"year":2017,"cited_by_count":1},{"year":2014,"cited_by_count":1},{"year":2013,"cited_by_count":1},{"year":2012,"cited_by_count":2}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}