{"id":"https://openalex.org/W2160277484","doi":"https://doi.org/10.1109/mmsp.2002.1203299","title":"Speaker recognition using least squares IOHMMs","display_name":"Speaker recognition using least squares IOHMMs","publication_year":2004,"publication_date":"2004-01-24","ids":{"openalex":"https://openalex.org/W2160277484","doi":"https://doi.org/10.1109/mmsp.2002.1203299","mag":"2160277484"},"language":"en","primary_location":{"id":"doi:10.1109/mmsp.2002.1203299","is_oa":false,"landing_page_url":"https://doi.org/10.1109/mmsp.2002.1203299","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2002 IEEE Workshop on Multimedia Signal Processing.","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5020186386","display_name":"Nabanita Mukherjee","orcid":"https://orcid.org/0000-0002-7815-5462"},"institutions":[{"id":"https://openalex.org/I4210122954","display_name":"MIT Lincoln Laboratory","ror":"https://ror.org/022z6jk58","country_code":"US","type":"facility","lineage":["https://openalex.org/I4210122954","https://openalex.org/I63966007"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"N. Mukherjee","raw_affiliation_strings":["MIT Media Laboratory, Cambridge, MA, USA"],"affiliations":[{"raw_affiliation_string":"MIT Media Laboratory, Cambridge, MA, USA","institution_ids":["https://openalex.org/I4210122954"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":["https://openalex.org/A5020186386"],"corresponding_institution_ids":["https://openalex.org/I4210122954"],"apc_list":null,"apc_paid":null,"fwci":0.4497,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.76309694,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"37","issue":null,"first_page":"276","last_page":"279"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10320","display_name":"Neural Networks and Applications","score":0.993399977684021,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/hidden-markov-model","display_name":"Hidden Markov model","score":0.8229337930679321},{"id":"https://openalex.org/keywords/discriminative-model","display_name":"Discriminative model","score":0.8013182878494263},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.7978599667549133},{"id":"https://openalex.org/keywords/timit","display_name":"TIMIT","score":0.7445424199104309},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.723571240901947},{"id":"https://openalex.org/keywords/speaker-recognition","display_name":"Speaker recognition","score":0.6904455423355103},{"id":"https://openalex.org/keywords/speaker-diarisation","display_name":"Speaker diarisation","score":0.6587003469467163},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.6080654859542847},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5796353220939636},{"id":"https://openalex.org/keywords/classifier","display_name":"Classifier (UML)","score":0.5468425750732422},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.48456278443336487},{"id":"https://openalex.org/keywords/support-vector-machine","display_name":"Support vector machine","score":0.4797000586986542},{"id":"https://openalex.org/keywords/feature-extraction","display_name":"Feature extraction","score":0.46877235174179077},{"id":"https://openalex.org/keywords/identity","display_name":"Identity (music)","score":0.4510105550289154},{"id":"https://openalex.org/keywords/mel-frequency-cepstrum","display_name":"Mel-frequency cepstrum","score":0.41320449113845825}],"concepts":[{"id":"https://openalex.org/C23224414","wikidata":"https://www.wikidata.org/wiki/Q176769","display_name":"Hidden Markov model","level":2,"score":0.8229337930679321},{"id":"https://openalex.org/C97931131","wikidata":"https://www.wikidata.org/wiki/Q5282087","display_name":"Discriminative model","level":2,"score":0.8013182878494263},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.7978599667549133},{"id":"https://openalex.org/C2778724510","wikidata":"https://www.wikidata.org/wiki/Q7670405","display_name":"TIMIT","level":3,"score":0.7445424199104309},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.723571240901947},{"id":"https://openalex.org/C133892786","wikidata":"https://www.wikidata.org/wiki/Q1145189","display_name":"Speaker recognition","level":2,"score":0.6904455423355103},{"id":"https://openalex.org/C149838564","wikidata":"https://www.wikidata.org/wiki/Q7574248","display_name":"Speaker diarisation","level":3,"score":0.6587003469467163},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.6080654859542847},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5796353220939636},{"id":"https://openalex.org/C95623464","wikidata":"https://www.wikidata.org/wiki/Q1096149","display_name":"Classifier (UML)","level":2,"score":0.5468425750732422},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.48456278443336487},{"id":"https://openalex.org/C12267149","wikidata":"https://www.wikidata.org/wiki/Q282453","display_name":"Support vector machine","level":2,"score":0.4797000586986542},{"id":"https://openalex.org/C52622490","wikidata":"https://www.wikidata.org/wiki/Q1026626","display_name":"Feature extraction","level":2,"score":0.46877235174179077},{"id":"https://openalex.org/C2778355321","wikidata":"https://www.wikidata.org/wiki/Q17079427","display_name":"Identity (music)","level":2,"score":0.4510105550289154},{"id":"https://openalex.org/C151989614","wikidata":"https://www.wikidata.org/wiki/Q440370","display_name":"Mel-frequency cepstrum","level":3,"score":0.41320449113845825},{"id":"https://openalex.org/C24890656","wikidata":"https://www.wikidata.org/wiki/Q82811","display_name":"Acoustics","level":1,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/mmsp.2002.1203299","is_oa":false,"landing_page_url":"https://doi.org/10.1109/mmsp.2002.1203299","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2002 IEEE Workshop on Multimedia Signal Processing.","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/10","display_name":"Reduced inequalities","score":0.5899999737739563}],"awards":[],"funders":[{"id":"https://openalex.org/F4320307758","display_name":"Eli Lilly and Company","ror":"https://ror.org/01qat3289"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":10,"referenced_works":["https://openalex.org/W2088562567","https://openalex.org/W2110652811","https://openalex.org/W2124158580","https://openalex.org/W2125838338","https://openalex.org/W2145367176","https://openalex.org/W2160149277","https://openalex.org/W2161523118","https://openalex.org/W6678649364","https://openalex.org/W6684042573","https://openalex.org/W6819052839"],"related_works":["https://openalex.org/W3134920593","https://openalex.org/W1963976507","https://openalex.org/W2143247386","https://openalex.org/W1990589093","https://openalex.org/W2206035908","https://openalex.org/W3119288895","https://openalex.org/W2501000458","https://openalex.org/W330219801","https://openalex.org/W2185075503","https://openalex.org/W1578749070"],"abstract_inverted_index":{"The":[0,72,98,118,131,147],"purpose":[1],"of":[2,45,76,133,149,157],"the":[3,110,121,150,164],"speaker":[4,17,54,70,96],"recognition":[5,44],"is":[6,152],"to":[7,102,106,123],"determine":[8],"a":[9,53,64,127,155],"speaker's":[10],"identity":[11,55],"from":[12,37,163],"his/her":[13,19,29],"speech":[14,30,48],"utterances.":[15,31],"Every":[16],"has":[18,143],"own":[20],"physiological":[21],"as":[22,24,89,114],"well":[23],"behavioral":[25],"characteristics":[26,33],"embedded":[27],"in":[28,126],"These":[32],"can":[34,56],"be":[35,57,124],"extracted":[36],"utterances":[38],"and":[39,138,159],"statistically":[40,50],"modeled.":[41],"Through":[42],"pattern":[43],"unseen":[46],"test":[47],"with":[49],"trained":[51,125],"models,":[52],"recognized.":[58],"In":[59],"this":[60],"paper,":[61],"we":[62],"present":[63],"discriminative":[65,129],"classification":[66],"based":[67,82],"approach":[68],"for":[69,91],"recognition.":[71],"system":[73,151],"makes":[74],"use":[75,132],"regularized":[77],"least":[78],"squares":[79],"regression":[80],"(RLSR)":[81],"input":[83,104],"output":[84,107],"hidden":[85,134],"Markov":[86,135],"models":[87,136],"(IOHMM)":[88],"classifier":[90],"closed":[92],"set,":[93],"text":[94],"independent":[95],"identification.":[97],"IOHMM":[99,122],"allows":[100,120],"us":[101],"map":[103],"sequences":[105],"sequences,":[108],"using":[109,154],"same":[111],"processing":[112],"style":[113],"recurrent":[115],"neural":[116],"networks.":[117],"RLSR":[119],"more":[128],"style.":[130],"(HMM)":[137],"support":[139],"vector":[140],"machines":[141],"(SVM)":[142],"also":[144],"been":[145],"studied.":[146],"performance":[148],"assessed":[153],"set":[156],"male":[158],"female":[160],"speakers":[161],"drawn":[162],"TIMIT":[165],"corpus.":[166]},"counts_by_year":[],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}