亚洲国产爱久久全部精品_日韩有码在线播放_国产欧美在线观看_中文字幕不卡在线观看

「快意」大規(guī)模語言模型（KwaiYii）

簡介

????????「快意」大模型（KwaiYii）是由快手AI團(tuán)隊(duì)從零到一獨(dú)立自主研發(fā)的一系列大規(guī)模語言模型（Large Language Model，LLM），當(dāng)前包含了多種參數(shù)規(guī)模的模型，并覆蓋了預(yù)訓(xùn)練模型（KwaiYii-Base)、對話模型（KwaiYii-Chat)。這里面我們介紹13B規(guī)模的系列模型KwaiYii-13B，其主要特點(diǎn)包括：

KwaiYii-13B-Base預(yù)訓(xùn)練模型具備優(yōu)異的通用技術(shù)底座能力，在絕大部分權(quán)威的中/英文Benchmark上取得了同等模型尺寸下的State-Of-The-Art效果。例如，KwaiYii-13B-Base預(yù)訓(xùn)練模型在MMLU、CMMLU、C-Eval、HumanEval等Benchmark上目前處于同等模型規(guī)模的領(lǐng)先水平。
KwaiYii-13B-Chat對話模型具備出色的語言理解和生成能力，支持內(nèi)容創(chuàng)作、信息咨詢、數(shù)學(xué)邏輯、代碼編寫、多輪對話等廣泛任務(wù)，人工評估結(jié)果表明KwaiYii-13B-Chat超過主流的開源模型，并在內(nèi)容創(chuàng)作、信息咨詢和數(shù)學(xué)解題上接近ChatGPT(3.5)同等水平。

Benchmark評測效果

????????我們選取了行業(yè)中被廣泛認(rèn)可的權(quán)威Benchmark進(jìn)行評測，例如體現(xiàn)英文綜合能力的MMLU、體現(xiàn)中文綜合能力的C-Eval和CMMLU、體現(xiàn)中小學(xué)數(shù)學(xué)能力的GSM8K以及體現(xiàn)代碼能力的HumanEval，并與行業(yè)上的主流模型在上述Benchmark上匯報(bào)的指標(biāo)結(jié)果進(jìn)行比較。具體對比結(jié)果如下所示：

C-Eval是一個(gè)全面的中文基礎(chǔ)模型評測數(shù)據(jù)集，由清華大學(xué)、上海交通大學(xué)和愛丁堡大學(xué)合作構(gòu)建，包含12342道單項(xiàng)選擇題，涵蓋數(shù)學(xué)、物理、化學(xué)、生物、歷史、政治、計(jì)算機(jī)等52個(gè)不同學(xué)科和四個(gè)難度級別，是最具影響力的中文綜合性考試評測集之一。其采用5-shot的方式進(jìn)行評測。

	Model 5-shot	Average	STEM	Social Sciences	Humanities	Others
預(yù)訓(xùn)練模型	KwaiYii-13B-Base	62.6	52.7	74.1	68.8	63.7
	ChatGLM2-12B-Base	61.6	55.4	73.7	64.2	59.4
	Qwen-7B	59.6	52.8	74.1	63.1	55.2
	Baichuan-13B-Base	53.6	47	66.8	57.3	49.8
對話模型	ChatGLM2	71.1	64.4	81.6	73.7	71.3
	GPT-4	68.7	67.1	77.6	64.5	67.8
	KwaiYii-13B-Chat	59.0	49.9	69.2	63.9	61.0
	ChatGLM2-12B-Chat	57.0	52.1	69.3	58.5	53.2
	GPT-3.5	54.4	52.9	61.8	50.9	53.6
	Baichuan-13B-Chat	51.5	43.7	64.6	56.2	49.2

MMLU由加州大學(xué)伯克利分校等知名高校共同打造，集合了科學(xué)、工程、數(shù)學(xué)、人文、社會(huì)科學(xué)等領(lǐng)域的57個(gè)科目，包含14079道單項(xiàng)選擇題，主要目標(biāo)是對模型的英文跨學(xué)科專業(yè)能力進(jìn)行深入測試。其內(nèi)容廣泛，從初級水平一直涵蓋到高級專業(yè)水平，同樣采用5-shot方式進(jìn)行評測。

	Model 5-shot	Average	STEM	Social Sciences	Humanities	Others
預(yù)訓(xùn)練模型	KwaiYii-13B-Base	57.42	46.82	68.83	51.56	64.96
	Qwen-7B	56.7	-	-	-	-
	ChatGLM2-12B-Base	56.18	48.18	65.13	52.58	60.93
	Llama2-13B-Base	54.8	-	-	-	-
	Baichuan-13B-Base	51.6	41.6	60.9	47.4	58.5
	Llama1-13B-Base	46.9	-	-	-	-
對話模型	GPT-4	86.4	-	-	-	-
	GPT-3.5	70.0	-	-	-	-
	KwaiYii-13B-Chat	56.44	46.79	66.36	50.73	64.28
	ChatGLM2-12B-Chat	52.13	47.00	61.00	46.10	56.05
	Baichuan-13B-Chat	52.1	40.9	60.9	48.8	59.0

CMMLU是一個(gè)綜合性的中文評估基準(zhǔn)，專門用于評估語言模型在中文語境下的知識(shí)和推理能力。CMMLU涵蓋了從基礎(chǔ)學(xué)科到高級專業(yè)水平的67個(gè)主題，包括：需要計(jì)算和推理的自然科學(xué)，需要知識(shí)的人文科學(xué)和社會(huì)科學(xué)，以及需要生活常識(shí)的中國駕駛規(guī)則等，共11582道單項(xiàng)選擇題。此外，CMMLU中的許多任務(wù)具有中國特色，可能在其他地區(qū)或語言中并不普遍適用，是一個(gè)完全中國化的中文測試基準(zhǔn)。評測分別采用5-shot和0-shot的方式進(jìn)行。

	Model 5-shot	平均分	STEM	人文學(xué)科	社會(huì)科學(xué)	其他	中國特定主題
預(yù)訓(xùn)練模型	KwaiYii-13B-Base	61.73	46.54	69.22	64.49	65.09	63.10
	Qwen-7B-Base	58.66	48.39	63.77	61.22	62.14	58.73
	MiLM-6B	57.17	46.85	61.12	61.68	58.84	59.39
	Baichuan-13B-Base	55.82	42.38	61.61	60.44	59.26	56.62
	ChatGLM2-6B-Base	48.80	42.55	50.98	50.99	50.80	48.37
對話模型	GPT-4	70.95	65.23	72.11	72.06	74.79	66.12
	KwaiYii-13B-Chat	59.97	47.33	65.85	62.19	62.23	61.00
	Baichuan-13B-Chat	55.8	42.8	62.6	59.7	59.0	56.1
	GPT-3.5	55.51	47.81	55.68	56.50	62.66	50.69

	Model 0-shot	平均分	STEM	人文學(xué)科	社會(huì)科學(xué)	其他	中國特定主題
預(yù)訓(xùn)練模型	KwaiYii-13B-Base	61.22	46.82	69.35	63.42	64.02	63.26
	MiLM-6B	60.37	48.88	63.49	66.20	62.14	62.07
	Qwen-7B-Base	57.57	46.33	62.54	60.48	61.72	58.77
	Baichuan-13B-Base	54.63	42.04	60.49	59.55	56.60	55.72
	ChatGLM2-6B-Base	49.95	41.28	52.85	53.37	52.24	50.58
對話模型	GPT-4	68.90	63.16	69.19	70.26	73.16	63.47
	KwaiYii-13B-Chat	60.41	46.15	66.49	63.25	62.68	61.94
	GPT-3.5	53.22	44.80	53.61	54.22	59.95	49.74

GSM8K是由OpenAI構(gòu)建的高中數(shù)學(xué)應(yīng)用題數(shù)據(jù)集，包含8500道高質(zhì)量的數(shù)據(jù)，主要目標(biāo)是對模型的數(shù)學(xué)推理能力進(jìn)行評測，其中測試集1319條數(shù)據(jù)，每個(gè)問題都需要2-8個(gè)步驟來解決，解決方案主要包括使用基本算術(shù)運(yùn)算（+ ? × ÷）進(jìn)行一系列的基本計(jì)算，以得到最終答案。其采用8-shot進(jìn)行評測。

	Model 8-shot	GSM8K
預(yù)訓(xùn)練模型	Qwen-7B-Base	51.6
	KwaiYii-13B-Base	48.4
	ChatGLM2-12B-Base	40.94
	Llama2-13B-Base	28.7
	Baichuan-13B-Base	22.44
對話模型	GPT-4	92.0
	GPT-3.5	57.1
	KwaiYii-13B-Chat	52.2
	Qwen-7B-Chat	43.5
	ChatGLM2-12B-Chat	38.13

HumanEval是OpenAI和Anthropic AI一起制作的代碼數(shù)據(jù)集，包含164個(gè)原創(chuàng)編程題，涉及語言理解、算法、數(shù)學(xué)和軟件面試幾種類型的題目。其采用0-shot的方式進(jìn)行評測。

	Model 0-shot	HumanEval @Pass1
預(yù)訓(xùn)練模型	KwaiYii-13B-Base	40.8
	Qwen-7B-Base	24.4
	Llama2-13B-Base	18.3
	Llama1-13B-Base	15.8
對話模型	GPT-4	67.0
	GPT-3.5	48.1
	KwaiYii-13B-Chat	43.3
	Qwen-7B-Chat	24.4
	Llama2-13B-Chat	15.85

????????從對比結(jié)果可以看出，KwaiYii-13B-Base及KwaiYii-13B-Chat模型在各榜單中均處于領(lǐng)先水平。在MMLU、CMMLU、C-Eval等體現(xiàn)綜合學(xué)科類的Benchmark上領(lǐng)先，說明KwiiYii-13B-Base預(yù)訓(xùn)練模型在中英文雙語學(xué)科和行業(yè)領(lǐng)域的知識(shí)能力突出。在GSM8K數(shù)學(xué)評測集上及HumanEval編程測評集上的優(yōu)異表現(xiàn)，則體現(xiàn)了模型較好的數(shù)理邏輯及代碼能力。

人工評測結(jié)果

????????Benchmark指標(biāo)體現(xiàn)了語言模型的基礎(chǔ)理解能力，更直觀地，我們?nèi)斯ぴu估了模型在各類任務(wù)上遵循用戶指令的能力。我們構(gòu)建了一個(gè)高質(zhì)量評測集，包含了內(nèi)容創(chuàng)作、信息咨詢、數(shù)學(xué)解題、邏輯推理、代碼能力和多輪對話共6個(gè)類別。其中內(nèi)容創(chuàng)作包括文章寫作、翻譯、摘要總結(jié)等根據(jù)給定約束生成文本的任務(wù)，以及對實(shí)體/事件的觀點(diǎn)描述等；信息咨詢偏向信息獲取，如知識(shí)/常識(shí)咨詢，景點(diǎn)、電影和音樂推薦等；數(shù)學(xué)解題主要包含四則運(yùn)算、應(yīng)用題、方程等數(shù)學(xué)問題；邏輯推理主要包括事實(shí)推理、演繹推理和數(shù)據(jù)統(tǒng)計(jì)等；代碼能力包含代碼編寫、代碼調(diào)試、Bug分析；多輪對話則主要體現(xiàn)在一個(gè)Session中持續(xù)對話的上下文意圖理解和產(chǎn)生正確回復(fù)的能力。

????????為了直觀地比較待評測模型與ChatGPT的效果差異，對于評測集中的每個(gè)問題，我們都評測了其與ChatGPT的Good:Same:Bad（下文簡稱GSB，其中Good表示評測集中，待評測模型比ChatGPT表現(xiàn)更好的數(shù)量，Same則表示表現(xiàn)持平的數(shù)量，Bad則是待評測模型比ChatGPT表現(xiàn)更差的數(shù)量）結(jié)果。具體而言，我們將待評測模型與ChatGPT進(jìn)行雙盲對比測試：對于每一個(gè)Query，我們隱藏模型信息，并打亂兩個(gè)模型的答案順序，然后分配給多名評測者，評測人員根據(jù)內(nèi)容正確性、內(nèi)容相關(guān)性、內(nèi)容詳實(shí)性等維度進(jìn)行打分，然后從“模型A好”、“模型B好”、“兩者一樣好”、“兩者都一般”以及“兩者一樣差”五個(gè)選項(xiàng)中進(jìn)行選擇，最終再根據(jù)多名評測人員的GSB評測結(jié)果，按照規(guī)則擬合成該條數(shù)據(jù)的統(tǒng)一GSB結(jié)果。

????????我們對KwaiYii-13B-Chat模型以及同等參數(shù)規(guī)模的行業(yè)主流模型，均與ChatGPT(3.5)進(jìn)行了對比和人工評估，其各自的得分如下圖所示。從人工評估的結(jié)果來看，KwaiYii-13B-Chat超過了同等規(guī)模的開源模型，并接近ChatGPT同等水平。在內(nèi)容創(chuàng)作、信息咨詢、邏輯推理和數(shù)學(xué)解題上，基本與ChatGPT(3.5)效果相當(dāng)。在多輪對話能力方面，KwaiYii-13B-Chat超過同等規(guī)模的開源模型，但與ChatGPT(3.5)仍有一定差距。注意：人工評估結(jié)果受到評測數(shù)據(jù)覆蓋面、標(biāo)注主觀性等因素的影響，無法全面反映大語言模型的所有能力。

Name	Name	Last commit message	Last commit date
Latest commit ? History 38 Commits
README.md	README.md	?	?
image.png	image.png	?	?

亚洲国产爱久久全部精品_日韩有码在线播放_国产欧美在线观看_中文字幕不卡在线观看

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

「快意」大規(guī)模語言模型（KwaiYii）

簡介

Benchmark評測效果

人工評測結(jié)果

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 3

Uh oh!

亚洲国产爱久久全部精品_日韩有码在线播放_国产欧美在线观看_中文字幕不卡在线观看

kwai/KwaiYii

Folders and files

Latest commit

History

Repository files navigation

「快意」大規(guī)模語言模型（KwaiYii）

簡介

Benchmark評測效果

人工評測結(jié)果

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 3

Uh oh!

Packages