{"id":"https://openalex.org/W131597382","doi":"https://doi.org/10.21437/interspeech.2005-482","title":"Japanese vowel recognition based on structural representation of speech","display_name":"Japanese vowel recognition based on structural representation of speech","publication_year":2005,"publication_date":"2005-09-04","ids":{"openalex":"https://openalex.org/W131597382","doi":"https://doi.org/10.21437/interspeech.2005-482","mag":"131597382"},"language":"en","primary_location":{"id":"doi:10.21437/interspeech.2005-482","is_oa":false,"landing_page_url":"https://doi.org/10.21437/interspeech.2005-482","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Interspeech 2005","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5085794030","display_name":"Takao Murakami","orcid":"https://orcid.org/0000-0002-5110-1261"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Takao Murakami","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5005951187","display_name":"Kazutaka Maruyama","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Kazutaka Maruyama","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5041213266","display_name":"Nobuaki Minematsu","orcid":"https://orcid.org/0000-0002-8778-9555"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Nobuaki Minematsu","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5108197272","display_name":"Keikichi Hirose","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Keikichi Hirose","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":0,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":11,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1261","last_page":"1264"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9983999729156494,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9976999759674072,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.7680277824401855},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7382293939590454},{"id":"https://openalex.org/keywords/microphone","display_name":"Microphone","score":0.5991643071174622},{"id":"https://openalex.org/keywords/speaker-recognition","display_name":"Speaker recognition","score":0.5388163924217224},{"id":"https://openalex.org/keywords/vowel","display_name":"Vowel","score":0.5365687608718872},{"id":"https://openalex.org/keywords/acoustic-model","display_name":"Acoustic model","score":0.46613284945487976},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.45791947841644287},{"id":"https://openalex.org/keywords/speaker-diarisation","display_name":"Speaker diarisation","score":0.4556167721748352},{"id":"https://openalex.org/keywords/normalization","display_name":"Normalization (sociology)","score":0.42131510376930237},{"id":"https://openalex.org/keywords/speech-processing","display_name":"Speech processing","score":0.40771380066871643}],"concepts":[{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.7680277824401855},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7382293939590454},{"id":"https://openalex.org/C2778263558","wikidata":"https://www.wikidata.org/wiki/Q46384","display_name":"Microphone","level":3,"score":0.5991643071174622},{"id":"https://openalex.org/C133892786","wikidata":"https://www.wikidata.org/wiki/Q1145189","display_name":"Speaker recognition","level":2,"score":0.5388163924217224},{"id":"https://openalex.org/C2779581591","wikidata":"https://www.wikidata.org/wiki/Q36244","display_name":"Vowel","level":2,"score":0.5365687608718872},{"id":"https://openalex.org/C155635449","wikidata":"https://www.wikidata.org/wiki/Q4674699","display_name":"Acoustic model","level":3,"score":0.46613284945487976},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.45791947841644287},{"id":"https://openalex.org/C149838564","wikidata":"https://www.wikidata.org/wiki/Q7574248","display_name":"Speaker diarisation","level":3,"score":0.4556167721748352},{"id":"https://openalex.org/C136886441","wikidata":"https://www.wikidata.org/wiki/Q926129","display_name":"Normalization (sociology)","level":2,"score":0.42131510376930237},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.40771380066871643},{"id":"https://openalex.org/C144024400","wikidata":"https://www.wikidata.org/wiki/Q21201","display_name":"Sociology","level":0,"score":0.0},{"id":"https://openalex.org/C76155785","wikidata":"https://www.wikidata.org/wiki/Q418","display_name":"Telecommunications","level":1,"score":0.0},{"id":"https://openalex.org/C68115822","wikidata":"https://www.wikidata.org/wiki/Q1068172","display_name":"Sound pressure","level":2,"score":0.0},{"id":"https://openalex.org/C199539241","wikidata":"https://www.wikidata.org/wiki/Q7748","display_name":"Law","level":1,"score":0.0},{"id":"https://openalex.org/C94625758","wikidata":"https://www.wikidata.org/wiki/Q7163","display_name":"Politics","level":2,"score":0.0},{"id":"https://openalex.org/C17744445","wikidata":"https://www.wikidata.org/wiki/Q36442","display_name":"Political science","level":0,"score":0.0},{"id":"https://openalex.org/C19165224","wikidata":"https://www.wikidata.org/wiki/Q23404","display_name":"Anthropology","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.21437/interspeech.2005-482","is_oa":false,"landing_page_url":"https://doi.org/10.21437/interspeech.2005-482","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Interspeech 2005","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":9,"referenced_works":["https://openalex.org/W112696851","https://openalex.org/W1599512239","https://openalex.org/W2104687512","https://openalex.org/W2115606020","https://openalex.org/W2134061030","https://openalex.org/W2146871184","https://openalex.org/W2156172072","https://openalex.org/W2331493012","https://openalex.org/W3088875224"],"related_works":["https://openalex.org/W2206035908","https://openalex.org/W1977167953","https://openalex.org/W4247736853","https://openalex.org/W2162158162","https://openalex.org/W1493012537","https://openalex.org/W1999004162","https://openalex.org/W2175373321","https://openalex.org/W2125642021","https://openalex.org/W1521049138","https://openalex.org/W2938358845"],"abstract_inverted_index":{"Speech":[0],"acoustics":[1,123],"varies":[2],"from":[3,170,183],"speaker":[4,74,173],"to":[5,8,11,14,37,68,71,120,154],"speaker,":[6],"microphone":[7],"microphone,":[9],"room":[10],"room,":[12],"line":[13],"line,":[15],"etc.":[16],"Physically":[17],"speaking,":[18,25],"every":[19,110],"speech":[20,27,43,49,95,114,122,142],"sample":[21],"is":[22,28],"distorted.":[23],"Socially":[24],"however,":[26],"the":[29,40,58,72,82,101,147,156,159,166,179],"easiest":[30],"communication":[31],"media":[32],"for":[33],"humans.":[34],"In":[35,144],"order":[36],"cope":[38],"with":[39,48,174,186],"inevitable":[41],"distortions,":[42],"engineers":[44],"have":[45],"built":[46],"HMMs":[47],"data":[50],"of":[51,55,94,100,113,135,158],"hundreds":[52],"or":[53,75],"thousands":[54],"speakers":[56,185],"and":[57,77,115,138],"models":[59,84,168,181],"are":[60,85],"called":[61],"speaker-independent":[62,83],"models.":[63],"But":[64],"they":[65],"often":[66],"need":[67],"be":[69,106,129],"adapted":[70],"input":[73],"environment":[76],"this":[78,145],"fact":[79],"claims":[80],"that":[81,165],"not":[86],"really":[87],"speaker-independent.":[88],"Recently,":[89],"a":[90,171],"novel":[91],"acoustic":[92,111],"representation":[93,127],"was":[96,151],"proposed,":[97],"where":[98],"dimensions":[99],"above":[102],"distortions":[103],"can":[104,128,177],"hardly":[105],"seen.":[107],"It":[108],"discards":[109],"substance":[112],"captures":[116],"only":[117],"their":[118],"interrelations":[119],"represent":[121],"structurally.":[124],"The":[125,162],"new":[126,160,167],"interpreted":[130],"linguistically":[131],"as":[132,141],"physical":[133],"implementation":[134],"structural":[136],"phonology":[137],"also":[139],"psychologically":[140],"Gestalt.":[143],"paper,":[146],"first":[148],"recognition":[149],"experiment":[150],"carried":[152],"out":[153],"investigate":[155],"performance":[157],"representation.":[161],"results":[163],"showed":[164],"trained":[169,182],"single":[172],"no":[175],"normalization":[176],"outperform":[178],"conventional":[180],"4,130":[184],"CMN.":[187]},"counts_by_year":[{"year":2014,"cited_by_count":3},{"year":2013,"cited_by_count":2},{"year":2012,"cited_by_count":1}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}