{"id":"https://openalex.org/W6944666414","doi":"https://doi.org/10.18420/inf2022_06","title":"SCALA-Speech: An Interactive System for Finding and Analyzing Speech Content in Audio Data","display_name":"SCALA-Speech: An Interactive System for Finding and Analyzing Speech Content in Audio Data","publication_year":2022,"publication_date":"2022-01-01","ids":{"openalex":"https://openalex.org/W6944666414","doi":"https://doi.org/10.18420/inf2022_06"},"language":"en","primary_location":{"id":"pmh:oai:null:publica/445266","is_oa":false,"landing_page_url":"https://publica.fraunhofer.de/handle/publica/445266","pdf_url":null,"source":{"id":"https://openalex.org/S4306400318","display_name":"Fraunhofer-Publica (Fraunhofer-Gesellschaft)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I4923324","host_organization_name":"Fraunhofer-Gesellschaft","host_organization_lineage":["https://openalex.org/I4923324"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"","raw_type":"conference paper"},"type":"article","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.18420/inf2022_06","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Cornaggia-Urrigshardt, Alessia","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Cornaggia-Urrigshardt, Alessia","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Jarocky, Nikita","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jarocky, Nikita","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Kurth, Frank","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Kurth, Frank","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Urrigshardt, Sebastian","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Urrigshardt, Sebastian","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":null,"display_name":"Wilkinghoff, Kevin","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wilkinghoff, Kevin","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":5,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.1503,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.45728909,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":94},"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":true,"primary_topic":{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.4749999940395355,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.4749999940395355,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.1468999981880188,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12380","display_name":"Authorship Attribution and Profiling","score":0.04340000078082085,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/audio-mining","display_name":"Audio mining","score":0.7944999933242798},{"id":"https://openalex.org/keywords/interface","display_name":"Interface (matter)","score":0.40860000252723694},{"id":"https://openalex.org/keywords/speech-coding","display_name":"Speech coding","score":0.4002000093460083},{"id":"https://openalex.org/keywords/audio-signal-processing","display_name":"Audio signal processing","score":0.3878999948501587},{"id":"https://openalex.org/keywords/audio-analyzer","display_name":"Audio analyzer","score":0.36059999465942383},{"id":"https://openalex.org/keywords/speech-processing","display_name":"Speech processing","score":0.3587999939918518},{"id":"https://openalex.org/keywords/acoustic-model","display_name":"Acoustic model","score":0.3481000065803528},{"id":"https://openalex.org/keywords/audio-signal","display_name":"Audio signal","score":0.3409000039100647}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8313000202178955},{"id":"https://openalex.org/C157968479","wikidata":"https://www.wikidata.org/wiki/Q3079876","display_name":"Audio mining","level":4,"score":0.7944999933242798},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.5856000185012817},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.4366999864578247},{"id":"https://openalex.org/C113843644","wikidata":"https://www.wikidata.org/wiki/Q901882","display_name":"Interface (matter)","level":4,"score":0.40860000252723694},{"id":"https://openalex.org/C13895895","wikidata":"https://www.wikidata.org/wiki/Q3270773","display_name":"Speech coding","level":2,"score":0.4002000093460083},{"id":"https://openalex.org/C127220857","wikidata":"https://www.wikidata.org/wiki/Q2719318","display_name":"Audio signal processing","level":4,"score":0.3878999948501587},{"id":"https://openalex.org/C160372630","wikidata":"https://www.wikidata.org/wiki/Q4819855","display_name":"Audio analyzer","level":5,"score":0.36059999465942383},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.3587999939918518},{"id":"https://openalex.org/C155635449","wikidata":"https://www.wikidata.org/wiki/Q4674699","display_name":"Acoustic model","level":3,"score":0.3481000065803528},{"id":"https://openalex.org/C64922751","wikidata":"https://www.wikidata.org/wiki/Q4650799","display_name":"Audio signal","level":3,"score":0.3409000039100647},{"id":"https://openalex.org/C54953205","wikidata":"https://www.wikidata.org/wiki/Q4142201","display_name":"Speech analytics","level":4,"score":0.3393999934196472},{"id":"https://openalex.org/C49774154","wikidata":"https://www.wikidata.org/wiki/Q131765","display_name":"Multimedia","level":1,"score":0.32510000467300415},{"id":"https://openalex.org/C128422554","wikidata":"https://www.wikidata.org/wiki/Q20077126","display_name":"Sound recording and reproduction","level":2,"score":0.3131999969482422},{"id":"https://openalex.org/C133892786","wikidata":"https://www.wikidata.org/wiki/Q1145189","display_name":"Speaker recognition","level":2,"score":0.2996000051498413},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.2987000048160553},{"id":"https://openalex.org/C504749915","wikidata":"https://www.wikidata.org/wiki/Q9010971","display_name":"Speech technology","level":3,"score":0.2948000133037567},{"id":"https://openalex.org/C14999030","wikidata":"https://www.wikidata.org/wiki/Q16346","display_name":"Speech synthesis","level":2,"score":0.27410000562667847},{"id":"https://openalex.org/C204201278","wikidata":"https://www.wikidata.org/wiki/Q1332614","display_name":"Voice activity detection","level":3,"score":0.27379998564720154},{"id":"https://openalex.org/C2778152352","wikidata":"https://www.wikidata.org/wiki/Q5165061","display_name":"Content (measure theory)","level":2,"score":0.26820001006126404},{"id":"https://openalex.org/C3017588708","wikidata":"https://www.wikidata.org/wiki/Q758901","display_name":"Audio visual","level":2,"score":0.2614000141620636},{"id":"https://openalex.org/C91863865","wikidata":"https://www.wikidata.org/wiki/Q4349497","display_name":"Speech corpus","level":3,"score":0.25459998846054077},{"id":"https://openalex.org/C195324797","wikidata":"https://www.wikidata.org/wiki/Q33742","display_name":"Natural language","level":2,"score":0.2531999945640564}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:oai:null:publica/445266","is_oa":false,"landing_page_url":"https://publica.fraunhofer.de/handle/publica/445266","pdf_url":null,"source":{"id":"https://openalex.org/S4306400318","display_name":"Fraunhofer-Publica (Fraunhofer-Gesellschaft)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I4923324","host_organization_name":"Fraunhofer-Gesellschaft","host_organization_lineage":["https://openalex.org/I4923324"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"","raw_type":"conference paper"},{"id":"doi:10.18420/inf2022_06","is_oa":true,"landing_page_url":"https://doi.org/10.18420/inf2022_06","pdf_url":null,"source":{"id":"https://openalex.org/S7407052918","display_name":"Gesellschaft f\u00fcr Informatik (GI)","issn_l":null,"issn":[],"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article-journal"}],"best_oa_location":{"id":"doi:10.18420/inf2022_06","is_oa":true,"landing_page_url":"https://doi.org/10.18420/inf2022_06","pdf_url":null,"source":{"id":"https://openalex.org/S7407052918","display_name":"Gesellschaft f\u00fcr Informatik (GI)","issn_l":null,"issn":[],"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article-journal"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions","score":0.5150920748710632}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Audio":[0],"data":[1,68,109,126],"does":[2],"not":[3,36],"contain":[4,37],"as":[5,9,78,80],"much":[6],"static":[7],"information":[8],"images":[10],"and":[11,13,62,103,116,132,137],"texts":[12],"thus":[14,119],"analyses":[15],"inherently":[16],"require":[17],"more":[18,127],"time.":[19],"Although":[20],"in":[21,51,66,88,151],"monitoring":[22],"applications":[23],"it":[24],"is":[25,69,143],"likely":[26],"that":[27],"large":[28],"quantities":[29],"of":[30,94,141,148],"the":[31],"captured":[32],"audio":[33,49,67,89,108,125,146],"files":[34,50],"do":[35],"meaningful":[38],"information,":[39],"without":[40],"prior":[41],"knowledge":[42],"investigators":[43,87,121],"need":[44],"to":[45,47,122,124,155],"listen":[46,123],"all":[48],"full":[52],"length.":[53],"In":[54],"this":[55],"work,":[56],"a":[57,81],"system":[58,72,92],"for":[59,85],"automatically":[60],"finding":[61],"analyzing":[63],"speech":[64,75,97,112],"content":[65],"presented.":[70],"The":[71,91],"provides":[73],"different":[74],"processing":[76],"algorithms":[77],"well":[79],"graphical":[82],"interface":[83],"(SCALA)":[84],"assisting":[86],"analysis.":[90],"consists":[93],"four":[95],"components:":[96],"detection,":[98],"language":[99],"recognition,":[100],"speaker":[101,117],"diarization/recognition":[102],"keyword":[104],"spotting.":[105],"SCALA-Speech":[106,142],"structures":[107],"by":[110],"recognizing":[111],"regions,":[113],"used":[114],"languages":[115],"changes,":[118],"enabling":[120],"efficiently.":[128],"Furthermore,":[129],"specific":[130],"speakers":[131],"keywords":[133],"can":[134],"be":[135],"annotated":[136],"searched":[138],"for.":[139],"Usage":[140],"demonstrated":[144],"on":[145],"tracks":[147],"videos":[149],"linked":[150],"Twitter":[152],"posts":[153],"related":[154],"an":[156],"exemplary":[157],"topic.":[158]},"counts_by_year":[{"year":2024,"cited_by_count":1}],"updated_date":"2025-11-06T06:51:31.235846","created_date":"2025-10-10T00:00:00"}