{"id":"https://openalex.org/W7135237425","doi":"https://doi.org/10.1109/iccp68926.2025.11427162","title":"Subword Tokenization for Agglutinative Low-Resource Languages: A Case Study on Crimean Tatar","display_name":"Subword Tokenization for Agglutinative Low-Resource Languages: A Case Study on Crimean Tatar","publication_year":2025,"publication_date":"2025-10-16","ids":{"openalex":"https://openalex.org/W7135237425","doi":"https://doi.org/10.1109/iccp68926.2025.11427162"},"language":null,"primary_location":{"id":"doi:10.1109/iccp68926.2025.11427162","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iccp68926.2025.11427162","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE 21st International Conference on Intelligent Computer Communication and Processing (ICCP)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5059013216","display_name":"Enghin Omer","orcid":null},"institutions":[{"id":"https://openalex.org/I61641377","display_name":"Universitatea Na\u021bional\u0103 de \u0218tiin\u021b\u0103 \u0219i Tehnologie Politehnica Bucure\u0219ti","ror":"https://ror.org/0558j5q12","country_code":"RO","type":"education","lineage":["https://openalex.org/I61641377"]}],"countries":["RO"],"is_corresponding":true,"raw_author_name":"Enghin Omer","raw_affiliation_strings":["Politehnica University,Bucharest"],"affiliations":[{"raw_affiliation_string":"Politehnica University,Bucharest","institution_ids":["https://openalex.org/I61641377"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5007249186","display_name":"Mariana Mocanu","orcid":"https://orcid.org/0000-0002-8305-2652"},"institutions":[{"id":"https://openalex.org/I61641377","display_name":"Universitatea Na\u021bional\u0103 de \u0218tiin\u021b\u0103 \u0219i Tehnologie Politehnica Bucure\u0219ti","ror":"https://ror.org/0558j5q12","country_code":"RO","type":"education","lineage":["https://openalex.org/I61641377"]}],"countries":["RO"],"is_corresponding":false,"raw_author_name":"Mariana Mocanu","raw_affiliation_strings":["Politehnica University,Bucharest"],"affiliations":[{"raw_affiliation_string":"Politehnica University,Bucharest","institution_ids":["https://openalex.org/I61641377"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5059013216"],"corresponding_institution_ids":["https://openalex.org/I61641377"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.88342223,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"8"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10181","display_name":"Natural Language Processing Techniques","score":0.2994000017642975,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10181","display_name":"Natural Language Processing Techniques","score":0.2994000017642975,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12380","display_name":"Authorship Attribution and Profiling","score":0.24979999661445618,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12090","display_name":"Language and cultural evolution","score":0.0877000018954277,"subfield":{"id":"https://openalex.org/subfields/3316","display_name":"Cultural Studies"},"field":{"id":"https://openalex.org/fields/33","display_name":"Social Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/agglutinative-language","display_name":"Agglutinative language","score":0.6861000061035156},{"id":"https://openalex.org/keywords/tatar","display_name":"Tatar","score":0.6851999759674072},{"id":"https://openalex.org/keywords/lexical-analysis","display_name":"Lexical analysis","score":0.35749998688697815},{"id":"https://openalex.org/keywords/homonym","display_name":"Homonym (biology)","score":0.3142000138759613}],"concepts":[{"id":"https://openalex.org/C80875076","wikidata":"https://www.wikidata.org/wiki/Q171263","display_name":"Agglutinative language","level":3,"score":0.6861000061035156},{"id":"https://openalex.org/C2780124745","wikidata":"https://www.wikidata.org/wiki/Q25285","display_name":"Tatar","level":2,"score":0.6851999759674072},{"id":"https://openalex.org/C41895202","wikidata":"https://www.wikidata.org/wiki/Q8162","display_name":"Linguistics","level":1,"score":0.6118999719619751},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.4796999990940094},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.4790000021457672},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.474700003862381},{"id":"https://openalex.org/C176982825","wikidata":"https://www.wikidata.org/wiki/Q835922","display_name":"Lexical analysis","level":2,"score":0.35749998688697815},{"id":"https://openalex.org/C95457728","wikidata":"https://www.wikidata.org/wiki/Q309","display_name":"History","level":0,"score":0.3188999891281128},{"id":"https://openalex.org/C207062185","wikidata":"https://www.wikidata.org/wiki/Q902085","display_name":"Homonym (biology)","level":3,"score":0.3142000138759613},{"id":"https://openalex.org/C46312422","wikidata":"https://www.wikidata.org/wiki/Q11024","display_name":"Communication","level":1,"score":0.2978000044822693},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.2782000005245209},{"id":"https://openalex.org/C90805587","wikidata":"https://www.wikidata.org/wiki/Q10944557","display_name":"Word (group theory)","level":2,"score":0.2660999894142151}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/iccp68926.2025.11427162","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iccp68926.2025.11427162","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE 21st International Conference on Intelligent Computer Communication and Processing (ICCP)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":6,"referenced_works":["https://openalex.org/W2950733326","https://openalex.org/W2962784628","https://openalex.org/W4378193594","https://openalex.org/W4391454932","https://openalex.org/W4404780767","https://openalex.org/W7131783747"],"related_works":[],"abstract_inverted_index":{"Low-resource":[0],"languages":[1,44],"face":[2],"significant":[3],"challenges":[4],"in":[5,30,244],"the":[6,17,60,92,96,185,221,250,253,259,271],"development":[7],"of":[8,19,62,91,141,208,220,238,252,261,273,280],"robust":[9],"natural":[10,31],"language":[11,32],"processing":[12],"(NLP)":[13],"tools":[14],"due":[15,45],"to":[16,46,85,116,150,197,199],"scarcity":[18],"standardized":[20],"corpora":[21],"and":[22,42,51,77,87,102,118,129,144,193,211,226,229],"linguistic":[23,97],"resources.":[24],"Tokenization":[25],"is":[26,188,258],"a":[27,63,68,106,111,133,138,145,175,235,239,262,265],"critical":[28],"step":[29],"processing,":[33],"yet":[34],"existing":[35],"tokenization":[36,121,173,214],"algorithms":[37,122],"often":[38],"struggle":[39],"with":[40],"agglutinative":[41,242],"low-resourced":[43],"their":[47],"rich":[48],"morphological":[49],"structure":[50],"limited":[52],"training":[53],"data.":[54],"In":[55],"this":[56,245],"paper,":[57],"we":[58,81,104,171],"present":[59,132],"creation":[61,228],"corpus":[64,109,115,222,237],"for":[65],"Crimean":[66,100,113,147],"Tatar,":[67],"severely":[69],"under-resourced":[70],"Turkic":[71],"language.":[72],"To":[73,154],"address":[74,156],"orthographic":[75],"inconsistencies":[76],"dialectal":[78],"spelling":[79],"variations,":[80],"utilize":[82,105],"bilingual":[83],"dictionaries":[84],"normalize":[86],"consolidate":[88],"different":[89],"variants":[90],"same":[93],"word.":[94],"Leveraging":[95],"similarity":[98],"between":[99],"Tatar":[101,114,148],"Turkish,":[103,247],"large":[107],"Turkish":[108],"alongside":[110],"smaller":[112],"adapt":[117],"improve":[119,249],"subword":[120],"such":[123],"as":[124,174],"Byte-Pair":[125],"Encoding":[126],"(BPE),":[127],"WordPiece,":[128],"Unigram.":[130],"We":[131,216],"fine-tuning":[134],"algorithm":[135],"that":[136,234],"incorporates":[137],"golden":[139,186],"set":[140],"annotated":[142],"tokenizations":[143],"curated":[146],"vocabulary":[149],"adjust":[151],"token":[152,201],"boundaries.":[153],"further":[155],"context-sensitive":[157],"morpheme":[158],"boundaries,":[159],"where":[160],"some":[161],"morphemes":[162,281],"should":[163],"be":[164],"merged":[165],"or":[166],"separated":[167],"depending":[168],"on":[169,184,285],"usage,":[170],"model":[172,182,266],"character-level":[176],"sequence":[177],"labeling":[178],"task.":[179],"A":[180],"BiLSTM":[181],"trained":[183],"dataset":[187],"introduced,":[189],"assigning":[190],"\u201c$\\mathbf{B}$\u201d":[191],"(begin)":[192],"\u201c$\\mathbf{I}$\u201d":[194],"(inside)":[195],"labels":[196],"characters":[198,274],"predict":[200],"splits.":[202],"This":[203],"approach":[204],"demonstrates":[205],"improved":[206],"handling":[207],"context-dependent":[209],"segmentation":[210],"outperforms":[212],"traditional":[213],"methods.":[215],"provide":[217],"detailed":[218],"analyses":[219],"composition,":[223],"normalization":[224],"strategies":[225],"tokenizers":[227,283],"evaluation.":[230],"Our":[231],"results":[232],"demonstrate":[233],"larger":[236],"very":[240],"similar":[241],"language,":[243],"case":[246],"can":[248,275],"performance":[251],"tokenizer,":[254],"but":[255],"more":[256],"important":[257],"usage":[260],"vocabulary.":[263],"However,":[264],"which":[267],"takes":[268],"into":[269],"account":[270],"context":[272],"better":[276],"tokenize":[277],"words":[278],"composed":[279],"than":[282],"based":[284],"learning":[286],"merging":[287],"rules.":[288]},"counts_by_year":[],"updated_date":"2026-03-15T07:15:06.534987","created_date":"2026-03-14T00:00:00"}