{"id":"https://openalex.org/W2401144871","doi":"https://doi.org/10.21437/interspeech.2015-608","title":"Ensemble speaker modeling using speaker adaptive training deep neural network for speaker adaptation","display_name":"Ensemble speaker modeling using speaker adaptive training deep neural network for speaker adaptation","publication_year":2015,"publication_date":"2015-09-06","ids":{"openalex":"https://openalex.org/W2401144871","doi":"https://doi.org/10.21437/interspeech.2015-608","mag":"2401144871"},"language":"en","primary_location":{"id":"doi:10.21437/interspeech.2015-608","is_oa":false,"landing_page_url":"https://doi.org/10.21437/interspeech.2015-608","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Interspeech 2015","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5053726259","display_name":"Sheng Li","orcid":"https://orcid.org/0000-0001-7636-3797"},"institutions":[{"id":"https://openalex.org/I22299242","display_name":"Kyoto University","ror":"https://ror.org/02kpeqv85","country_code":"JP","type":"education","lineage":["https://openalex.org/I22299242"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Sheng Li","raw_affiliation_strings":["Kyoto University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Kyoto University","institution_ids":["https://openalex.org/I22299242"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5034792613","display_name":"Xugang Lu","orcid":"https://orcid.org/0000-0001-7075-448X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xugang Lu","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5066545740","display_name":"Yuya Akita","orcid":"https://orcid.org/0009-0003-3036-0883"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yuya Akita","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5038044080","display_name":"Tatsuya Kawahara","orcid":"https://orcid.org/0000-0002-2686-2296"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Tatsuya Kawahara","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":7,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"2892","last_page":"2896"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9930999875068665,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9890999794006348,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7638422846794128},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.700832188129425},{"id":"https://openalex.org/keywords/subspace-topology","display_name":"Subspace topology","score":0.6712512969970703},{"id":"https://openalex.org/keywords/speaker-recognition","display_name":"Speaker recognition","score":0.6583428382873535},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.6007678508758545},{"id":"https://openalex.org/keywords/speaker-diarisation","display_name":"Speaker diarisation","score":0.584328830242157},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5053901672363281},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.4720414876937866},{"id":"https://openalex.org/keywords/ensemble-forecasting","display_name":"Ensemble forecasting","score":0.45194342732429504},{"id":"https://openalex.org/keywords/adaptation","display_name":"Adaptation (eye)","score":0.4445570111274719},{"id":"https://openalex.org/keywords/ensemble-learning","display_name":"Ensemble learning","score":0.4227268695831299}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7638422846794128},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.700832188129425},{"id":"https://openalex.org/C32834561","wikidata":"https://www.wikidata.org/wiki/Q660730","display_name":"Subspace topology","level":2,"score":0.6712512969970703},{"id":"https://openalex.org/C133892786","wikidata":"https://www.wikidata.org/wiki/Q1145189","display_name":"Speaker recognition","level":2,"score":0.6583428382873535},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.6007678508758545},{"id":"https://openalex.org/C149838564","wikidata":"https://www.wikidata.org/wiki/Q7574248","display_name":"Speaker diarisation","level":3,"score":0.584328830242157},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5053901672363281},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.4720414876937866},{"id":"https://openalex.org/C119898033","wikidata":"https://www.wikidata.org/wiki/Q3433888","display_name":"Ensemble forecasting","level":2,"score":0.45194342732429504},{"id":"https://openalex.org/C139807058","wikidata":"https://www.wikidata.org/wiki/Q352374","display_name":"Adaptation (eye)","level":2,"score":0.4445570111274719},{"id":"https://openalex.org/C45942800","wikidata":"https://www.wikidata.org/wiki/Q245652","display_name":"Ensemble learning","level":2,"score":0.4227268695831299},{"id":"https://openalex.org/C120665830","wikidata":"https://www.wikidata.org/wiki/Q14620","display_name":"Optics","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.21437/interspeech.2015-608","is_oa":false,"landing_page_url":"https://doi.org/10.21437/interspeech.2015-608","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Interspeech 2015","raw_type":"proceedings-article"},{"id":"pmh:oai:t2r2.star.titech.ac.jp:50728194","is_oa":false,"landing_page_url":"http://t2r2.star.titech.ac.jp/cgi-bin/publicationinfo.cgi?q_publication_content_number=CTT100930683","pdf_url":null,"source":{"id":"https://openalex.org/S4377196385","display_name":"Tokyo Tech Research Repository (Tokyo Institute of Technology)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I114531698","host_organization_name":"Tokyo Institute of Technology","host_organization_lineage":["https://openalex.org/I114531698"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Conference Paper"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.6600000262260437,"id":"https://metadata.un.org/sdg/4","display_name":"Quality Education"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":22,"referenced_works":["https://openalex.org/W72347498","https://openalex.org/W567546468","https://openalex.org/W1480928214","https://openalex.org/W1513862252","https://openalex.org/W1524333225","https://openalex.org/W1537275613","https://openalex.org/W1576347883","https://openalex.org/W1982722627","https://openalex.org/W1989549063","https://openalex.org/W2010362084","https://openalex.org/W2017612226","https://openalex.org/W2025198378","https://openalex.org/W2045317385","https://openalex.org/W2056738732","https://openalex.org/W2056825827","https://openalex.org/W2087006792","https://openalex.org/W2094035326","https://openalex.org/W2103537425","https://openalex.org/W2160306971","https://openalex.org/W2254715784","https://openalex.org/W2294543795","https://openalex.org/W2394498270"],"related_works":["https://openalex.org/W2206035908","https://openalex.org/W4247736853","https://openalex.org/W2162158162","https://openalex.org/W1493012537","https://openalex.org/W2794896638","https://openalex.org/W1999004162","https://openalex.org/W2175373321","https://openalex.org/W2125642021","https://openalex.org/W1521049138","https://openalex.org/W2891633941"],"abstract_inverted_index":{"In":[0,118],"this":[1,101],"paper,":[2],"we":[3],"introduce":[4],"an":[5,83,91],"ensemble":[6,66,84,102,161],"speaker":[7,11,31,65,85,97,103,128,152,156],"modeling":[8],"using":[9],"a":[10,22,29,38,44],"adaptive":[12],"training":[13],"(SAT)":[14],"deep":[15,158],"neural":[16,76,159],"network":[17],"(SAT-DNN).":[18],"We":[19,133],"first":[20],"train":[21],"speaker-independent":[23],"DNN":[24],"(SIDNN)":[25],"acoustic":[26,114],"model":[27,32,93,115],"as":[28],"universal":[30],"(USM).":[33],"Based":[34],"on":[35,137],"the":[36,74,112,122],"USM,":[37],"SAT-DNN":[39],"is":[40,68,87,98,107,130,148],"used":[41],"to":[42,110,120],"obtain":[43,111],"set":[45],"of":[46,73,124],"speaker-dependent":[47,57],"models":[48],"by":[49,70],"assuming":[50],"that":[51,144],"all":[52,72],"other":[53],"layers":[54],"except":[55],"one":[56],"(SD)":[58],"layer":[59],"are":[60],"shared":[61],"among":[62],"speakers.":[63],"The":[64],"matrix":[67,80],"created":[69],"concatenating":[71],"SD":[75],"weight":[77],"matrices.":[78],"With":[79],"factorization":[81],"technique,":[82],"subspace":[86,129],"extracted.":[88],"When":[89],"testing,":[90],"initial":[92],"for":[94,116,150],"each":[95],"target":[96],"selected":[99],"in":[100],"subspace.":[104],"Then,":[105],"adaptation":[106,125],"carried":[108],"out":[109],"final":[113],"testing.":[117],"order":[119],"reduce":[121],"number":[123],"parameters,":[126],"low-rank":[127],"further":[131],"explored.":[132],"test":[134],"our":[135,145],"algorithm":[136],"lecture":[138,163],"transcription":[139,164],"task.":[140],"Experimental":[141],"results":[142],"showed":[143],"proposed":[146],"method":[147],"effective":[149],"unsupervised":[151],"adaptation.":[153],"Index":[154],"Terms:":[155],"adaptation,":[157],"networks,":[160],"modeling,":[162]},"counts_by_year":[{"year":2020,"cited_by_count":1},{"year":2018,"cited_by_count":1},{"year":2016,"cited_by_count":5}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}