Dia2-2B / tokenizer_config.json

Add Dia2-2B inference bundle

999a7fa verified 15 days ago

13.3 kB

	{
	"add_prefix_space": false,
	"added_tokens_decoder": {
	"0": {
	"content": "<\|endoftext\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"1": {
	"content": "<\|im_start\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"2": {
	"content": "<\|im_end\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"3": {
	"content": "<repo_name>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"4": {
	"content": "<reponame>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"5": {
	"content": "<file_sep>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"6": {
	"content": "<filename>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"7": {
	"content": "<gh_stars>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"8": {
	"content": "<issue_start>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"9": {
	"content": "<issue_comment>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"10": {
	"content": "<issue_closed>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"11": {
	"content": "<jupyter_start>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"12": {
	"content": "<jupyter_text>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"13": {
	"content": "<jupyter_code>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"14": {
	"content": "<jupyter_output>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"15": {
	"content": "<jupyter_script>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"16": {
	"content": "<empty_output>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49152": {
	"content": "[S1]",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49153": {
	"content": "[S2]",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49154": {
	"content": "(laughs)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49155": {
	"content": "(coughs)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49156": {
	"content": "(clears throat)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49157": {
	"content": "(sighs)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49158": {
	"content": "(gasps)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49159": {
	"content": "(sings)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49160": {
	"content": "(mumbles)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49161": {
	"content": "(groans)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49162": {
	"content": "(sniffs)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49163": {
	"content": "(applause)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49164": {
	"content": "(claps)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49165": {
	"content": "(screams)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49166": {
	"content": "(grunts)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49167": {
	"content": "(hums)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49168": {
	"content": "(burps)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49169": {
	"content": "(whistles)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49170": {
	"content": "(snaps)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49171": {
	"content": "(squeaks)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49172": {
	"content": "(growls)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49173": {
	"content": "(barks)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49174": {
	"content": "(cheers)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49175": {
	"content": "(sips)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49176": {
	"content": "(snores)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49177": {
	"content": "(whispers)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49178": {
	"content": "(slurps)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49179": {
	"content": "(snorts)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49180": {
	"content": "(sobs)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49181": {
	"content": "(beatboxing)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49182": {
	"content": "(sneezes)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49183": {
	"content": "(thuds)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49184": {
	"content": "(clicks)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49185": {
	"content": "(knocks)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49186": {
	"content": "(panting)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49187": {
	"content": "(gulps)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49188": {
	"content": "(beep)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49189": {
	"content": "(buzzer)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49190": {
	"content": "(ding)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49191": {
	"content": "(whoosh)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49192": {
	"content": "(sizzling)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49193": {
	"content": "(tires screeching)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49194": {
	"content": "(thunder)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49195": {
	"content": "(gunfire)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49196": {
	"content": "(explosion)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49197": {
	"content": "(phone ringing)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49198": {
	"content": "(siren)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49199": {
	"content": "(horn honks)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49200": {
	"content": "(car engine sound)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49201": {
	"content": "(audience laughs)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49202": {
	"content": "(audience applauds)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"49203": {
	"content": "(audience cheers)",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	}
	},
	"additional_special_tokens": [
	"[S1]",
	"[S2]",
	"(laughs)",
	"(coughs)",
	"(clears throat)",
	"(sighs)",
	"(gasps)",
	"(sings)",
	"(mumbles)",
	"(groans)",
	"(sniffs)",
	"(applause)",
	"(claps)",
	"(screams)",
	"(grunts)",
	"(hums)",
	"(burps)",
	"(whistles)",
	"(snaps)",
	"(squeaks)",
	"(growls)",
	"(barks)",
	"(cheers)",
	"(sips)",
	"(snores)",
	"(whispers)",
	"(slurps)",
	"(snorts)",
	"(sobs)",
	"(beatboxing)",
	"(sneezes)",
	"(thuds)",
	"(clicks)",
	"(knocks)",
	"(panting)",
	"(gulps)",
	"(beep)",
	"(buzzer)",
	"(ding)",
	"(whoosh)",
	"(sizzling)",
	"(tires screeching)",
	"(thunder)",
	"(gunfire)",
	"(explosion)",
	"(phone ringing)",
	"(siren)",
	"(horn honks)",
	"(car engine sound)",
	"(audience laughs)",
	"(audience applauds)",
	"(audience cheers)"
	],
	"bos_token": "<\|endoftext\|>",
	"clean_up_tokenization_spaces": false,
	"eos_token": "<\|endoftext\|>",
	"extra_special_tokens": {},
	"model_max_length": 8192,
	"tokenizer_class": "GPT2Tokenizer",
	"unk_token": "<\|endoftext\|>",
	"vocab_size": 49204
	}