English Version

模型簡介

TAIDE計畫致力於開發符合台灣語言和文化特性的生成式人工智慧對話引擎模型，同時建構可信任的人工智慧環境。結合產學研能量，推動可信任生成式人工智慧的發展，提升台灣在國際競爭中的地位，促進產業發展，避免對外國技術的依賴。
Gemma 3 TAIDE 系列模型以 Google 公司釋出的 Gemma 3 12b 為基礎，導入台灣不同領域可用的文本與訓練素材，提高模型在正體中文回應的能力與特定任務的表現。公開釋出的模型如下:
- Gemma-3-TAIDE-12b-Chat: 以 Gemma-3-12b-pt 為基礎，使用正體中文資料預訓練 (continual pretraining)，並透過指令微調(instruction tuning)強化辦公室常用任務和多輪問答對話能力，適合聊天對話或任務協助的使用情境。

支援模態

輸入：文字（建議僅以文字輸入）
輸出：文字

模型參數

參數量: 12.4B
最大內容長度 (context length): 128K
繁中訓練資料 token 量: 46B
訓練時間: 642 H200 GPU Hours

特色

針對台灣在地文化、用語、國情等知識做加強
嚴格把關模型的訓練資料，提升模型生成資料的可信任性和適用性
針對自動摘要、寫信、寫文章、中翻英、英翻中等辦公室常用任務做加強
具備多輪問答對話能力

應用範例

任務	使用者輸入	模型輸出
應用寫作	我正在準備一場有關網路詐騙的宣導講座，請給我一份大約一小時的講座大綱，必須安排至少三個台灣常見網路詐騙手法的解析。	好的，以下為一份約一小時的網路詐騙宣導講座大綱，包含開場、詐騙解析、預防與應對，以及Q&A。講座名稱：小心！網路詐騙就在你身邊 – 提升自我保護力一、開場 (5分鐘) * 引言：網路世界便利，但危機四伏。詐騙手法日新月異，一不小心就可能成為受害者。 * 詐騙的普遍性：根據統計，網路詐騙案件逐年攀升，不分年齡、學歷，任何人都可能受害。 * 講座目的：提升大家對網路詐騙的警覺性，學習辨識詐騙手法的能力，並採取正確的應對措施。 * 強調：預防勝於治療，保護個人資訊，才能遠離詐騙風險。二、台灣常見網路詐騙手法解析 (30分鐘) * 第一彈：投資詐騙 (10分鐘) * 手法描述：詐騙集團假冒投資專家、理財顧問，利用LINE、Facebook等平台，以「高獲利、低風險」的誘餌，吸引投資人加入投資群組或網站。 * 常見話術：穩賺不賠、內線消息、快速致富、虛擬貨幣投資等。 * 案例分析： 2023年常見的「投資高報酬」詐騙，例如： * 「穩賺型股票」：鼓吹投資冷門股票，聲稱短期內可翻倍獲利。 * 「虛擬貨幣」：以高額利潤吸引投資，但平台最終關閉或資金被提領一空。 * 提醒：投資務必謹慎，不輕信高獲利承諾，投資前務必做好功課，並選擇合法合規的投資管道。 * 第二彈：愛情詐騙 (10分鐘) * 手法描述：詐騙集團在交友App或網站，以俊男美女的照片，假冒身份，與受害者建立感情，再編造各種理由（如：生病、親人過世、工作緊急）要求金錢援助。 * 常見話術：甜言蜜語、關懷問候、緊急求助、請求金錢援助等。 * 案例分析： 2022年常見的「假交友真詐財」案例，例如： * 「海外軍官」：假冒海外軍官，以戰爭或政治情勢為由，請求金錢援助。 * 「生病的戀人」：假冒生病的戀人，以醫療費用或生活困難為由，請求金錢援助。 * 提醒：網路交友要謹慎，不輕易相信陌生人，更不要隨意匯款。 * 第三彈：釣魚詐騙 (10分鐘) * 手法描述：詐騙集團假冒銀行、郵局、電商等機構的名義，發送詐騙郵件或簡訊，誘使受害者點擊惡意連結或下載附件，竊取個人資訊（如：帳號密碼、信用卡號）。 * 常見話術：帳戶安全警告、密碼重設、訂單確認、退稅通知等。 * 案例分析： 2023年常見的「釣魚郵件」案例，例如： * 「銀行安全提醒」：假冒銀行名義，要求點擊連結確認帳戶安全。 * 「包裹待領」：假冒物流公司名義，要求點擊連結領取包裹。 * 提醒：不要輕易點擊不明連結或下載附件，保護個人資訊，定期更新密碼。三、預防與應對 (15分鐘) * 保護個人資訊： * 不隨意透露個人資訊（如：生日、地址、電話、銀行資料）。 * 使用複雜且獨特的密碼。 * 定期更新密碼。 * 啟用雙重驗證（2FA）。 * 辨識詐騙徵兆： * 不輕信高獲利、低風險的投資。 * 不隨意相信陌生人的請求。 * 不點擊不明連結或下載附件。 * 保持懷疑態度。 * 應對詐騙： * 不要回應可疑郵件或訊息。 * 向相關單位檢舉（165反詐騙專線、110報案）。 * 向親友求助。 * 保留證據（詐騙郵件、訊息、對話紀錄）。四、Q&A (10分鐘) * 開放現場提問，解答聽眾的疑問。 * 提供相關資源連結（165反詐騙專線、警政署110報案、消費者保護官網站）。備註： * 講座時間可依實際情況調整。 * 可準備一些詐騙案例的圖片或影片，增加講座的生動性。 * 鼓勵聽眾分享自身經驗，增加互動性。 * 講座結束後，可提供反詐騙宣導單或相關資料。希望這份講座大綱對您有幫助！
寫信	近來主管對我下班已讀不回訊息頗有微詞，甚至在整個部門的email串中提及此事。請幫我寫一封信，以委婉但堅定的語氣說明我希望在上班時間內專心完成工作，下班後另有私人要事，實在不便處理工作事務，然若是可以立即回答的問題，會盡可能即時回覆。整封信的語氣必須專業有禮貌，且必須考慮部門中其他同事也會看到。	主旨：關於下班時間回覆工作訊息一事敬愛的 [主管的名字] 您好：感謝您對我工作的指導與關心。近日收到您對於本人下班時間後回覆工作訊息一事的提醒，我理解您希望我們能保持高度警覺性與即時性的工作態度。我向來以工作為重，並盡力在上班時間內高效完成所有任務。然而，下班後我另有私人要事需要處理，時間安排上實在有所限制。我深知即時回覆工作訊息的重要性，因此，對於上班時間內收到的工作訊息，我會盡力迅速且妥善地回覆。若訊息內容涉及需要立即處理的事項，我定會盡快處理。未來，我會更加注意工作時間的分配，並盡力在上班時間內完成所有工作。同時，也請您理解我在下班後的時間安排，我仍會以負責任的態度面對我的工作。再次感謝您對我的指導，我將持續努力，為團隊貢獻我的力量。敬祝工作順心 [你的名字] [你的職稱] [你的部門] [你的聯絡方式] --- 注意事項： * 請將 [主管的名字] 替換為實際主管的名字。 * 請確認你的職稱、部門和聯絡方式是否正確。 * 這封信的語氣是委婉但堅定的，表達了你的立場，同時也展現了你對工作的尊重和承諾。 * 如果你覺得這封信的語氣太過強硬，可以再稍微修改，使其更柔和一些。 * 如果主管的微詞是出於誤會，你可以在信中加入一些解釋，例如你過去有盡力回覆訊息，或你過去有處理過緊急的工作經驗。
摘要	請將這篇文章精簡條理化:「產業創新條例第10條之2及第72條條文修正案」俗稱「台版晶片法」,針對半導體、電動車、5G等技術創新且居國際供應鏈關鍵地位公司,提供最高25%營所稅投抵優惠,企業適用要件包含當年度研發費用、研發密度達一定規模,且有效稅率達一定比率。為因應經濟合作暨發展組織(OECD)國家最低稅負制調整,其中有效稅率門檻,民國112年訂為12%,113年料將提高至15%,但仍得審酌國際間最低稅負制實施情形。經濟部官員表示,已和財政部協商進入最後階段,除企業研發密度訂在6%,目前已確認,企業購置先進製程的設備投資金額達100億元以上可抵減。財政部官員表示,研商過程中,針對台灣產業與其在國際間類似的公司進行深入研究,在設備部分,畢竟適用產創10之2的業者是代表台灣隊打「國際盃」,投入金額不達100億元,可能也打不了。至於備受關注的研發費用門檻,經濟部官員表示,歷經與財政部來回密切討論,研發費用門檻有望落在60億至70億元之間。財政部官員指出,研發攸關台灣未來經濟成長動能,門檻不能「高不可攀」,起初雖設定在100億元,之所以會調降,正是盼讓企業覺得有辦法達得到門檻、進而適用租稅優惠,才有動力繼續投入研發,維持國際供應鏈關鍵地位。經濟部官員表示,因廠商研發費用平均為30、40億元,其中,IC設計業者介於30億至60億元範圍,若將門檻訂在100億元,符合條件的業者較少、刺激誘因不足;此外,若符合申請門檻的業者增加,將可提高企業在台投資金額,財政部稅收也能因此獲得挹注。 IC設計業者近日頻頻針對產創10之2發聲,希望降低適用門檻,加上各國力拚供應鏈自主化、加碼補助半導體產業,經濟部官員表示,經濟部和財政部就產創10之2達成共識,爭取讓更多業者受惠,盼增強企業投資力道及鞏固台灣技術地位。財政部官員表示,租稅獎勵的制定必須「有為有守」,並以達到獎勵設置目的為最高原則,現階段在打「國內盃」的企業仍可適用產創第10條、10之1的租稅優惠,共同壯大台灣經濟發展。經濟部和財政部正就研發費用門檻做最後確認,待今明兩天預告子法之後,約有30天時間,可與業界進一步討論及調整,盼產創10之2能在6月上路。	--- 台版晶片法 - 產業創新條例第10條之2及第72條修正案精簡版一、優惠內容： * 針對半導體、電動車、5G 等產業的國際關鍵企業，提供最高 25% 營所稅投抵。二、企業適用資格： * 研發費用：研發費用門檻擬落在 60-70 億元之間。 * 研發密度：研發費用占營收比率至少 6%。 * 有效稅率： * 112 年：12% * 113 年 (可能) 15% * 調整後,將配合 OECD 最低稅負制調整。 * 設備投資：購置先進製程設備投資達 100 億元以上者，可申請抵減。三、政策背景與目的： * 配合 OECD 全球最低稅負制，調整有效稅率門檻。 * 鼓勵企業持續投入研發，維持台灣技術優勢及國際競爭力。 * 盼吸引更多企業投資台灣，增加國家稅收。四、時程： * 預計 6 月上路，草案預告後進行 30 天的業界意見徵詢期。五、政策立場： * 經濟部與財政部：共同協商，力求企業在可控制合理範圍內能獲得租稅優惠，以鼓勵企業發展。 * 租稅獎勵考量「有為有守」，訂定適切門檻，促進台灣經濟發展。
翻譯	以下提供英文內容，請幫我翻譯成中文。Dongshan coffee is famous for its unique position, and the constant refinement of production methods. The flavor is admired by many caffeine afficionados.	東山咖啡以其獨特的位置和持續改良的製程而聞名，其風味被許多咖啡愛好者所推崇。

使用說明

範例程式
prompt 樣版
- 一般問答用法
```
chat = [
    {"role": "user", "content": "{question}"},
]
prompt = tokenizer.apply_chat_template(chat)
```
  - 將 {question} 替換成使用者的輸入
- 加入 system prompt 的用法
```
chat = [
    {"role": "system", "content": "{sys}"},
    {"role": "user", "content": "{question}"},
]
prompt = tokenizer.apply_chat_template(chat)
```
  - 將 {sys} 替換成指令。
  - 將 {question} 替換成使用者的問題
- 多輪問答用法
```
chat = [
    {"role": "system", "content": "{sys}"},
    {"role": "user", "content": "{question1}"},
    {"role": "assistant", "content": "{model_anwer_1}"},
    {"role": "user", "content": "{question2}"},
]
prompt = tokenizer.apply_chat_template(chat)
```
  - 將 {sys} 替換成指令，例如：你是一個來自台灣的AI助理，你的名字是 TAIDE，樂於以台灣人的立場幫助使用者，會用正體中文回答問題。
  - 將 {question1} 替換成使用者的問題1
  - 將 {model_anwer_1} 替換成模型的回答1
  - 將 {question2} 替換成使用者的問題2
- 更多細節請參考Gemma 3 Model Card

訓練方法

軟硬體規格
- 國網中心 H200
- 訓練框架: PyTorch
資料前處理
- 字元標準化
- 去除重覆
- 去除雜訊
  - 網頁資料的html tag、javascript
  - 非標準字元或亂碼
  - 字數過短的文章
  - 去除文章中的特定格式，如為排版增加的換行
- 去除個資，如email、電話
- 去除不當文字，如賭博、色情等
持續預訓練 (continual pretraining, CP)
- 補充大量來源可信賴的正體中文知識
- 超參數 (hyper parameters)
  - optimizer: FusedAdam
  - learning rate: 1e-4
  - batch size: 4M tokens
  - epoch: 1
微調 (fine-tuning, FT)
- 讓模型可針對正體中文提問回答問題
- 超參數 (hyper parameters)
  - optimizer: FusedAdam
  - learning rate: 3e-6
  - batch size: 4M tokens
  - epoch: 5

訓練資料

持續預訓練資料(資料量約為240G)

資料集	資料描述
訴訟資料	《司法院裁判書》自2013年1月至2023年12月各級法院民事、刑事、行政訴訟資料。
中央社	《中央社中文新聞》資料集含中央社自1993年6月至2024年12月，共31.5年份之每日新聞文章。內容涵蓋國內外政治、社會、財經、文教、生活等領域。
ETtoday 新聞雲	《ETtoday新聞雲》資料，包含自2011年10月至2024年11月的資料。
立法院公報	《立法院公報》包含自第8屆第1會期至第10屆第7會期之公報資料。
出版商網站書籍介紹	包含三采、Gotop出版商網站上的書籍簡介。
GRB 研究計畫摘要	GRB為收錄由政府經費補助之研究計畫及其成果報告的資訊系統，此資料集主要收錄 1993年至 2023年之研究計畫摘要以及研究報告摘要，含中文及其英文對照。
學術會議論文摘要	收錄《學術會議論文摘要資料庫》中自1988至2009年由台灣所舉辦之學術會議論文。
光華雜誌	《台灣光華雜誌》含自1993年7月至2023年6月的文章，共30年份。內容著重於我國文化、觀光與民情等。
樂詞網	《樂詞網》涵蓋文理領域約187萬則學術名詞及其譯名對照。
各部會資料	包含行政院「國情簡介」、文化部「國家文化記憶庫」、國發會「檔案支援教學網」、交通部「交通安全入口網」等部會網站資料之部分資料。
今周刊	《今周刊》為一以財經為主的週刊雜誌，此資料集涵蓋2008年1月至2023年7月的文章。
教育部國語辭典、成語辭典	包含以下三項資料: 教育部《成語典》，含5,338條成語，內容包含每條成語的釋義、典故原文及其白話說明、用法說明、例句等。教育部《重編國語辭典修訂本》，收錄中文單字及各類辭彙，包含讀音、部首、釋義等資訊，共約165,539筆資料。教育部《國語辭典簡編本》，為《重編國語辭典修訂本》的簡編版本，共45,247筆資料。
科技大觀園資料	含《科技大觀園網站》上的科學新知以及科普文章。
iKnow 科技產業資訊室	《科技產業資訊室（iKnow）》提供台灣及全球的科技市場趨勢、策略分析、專利知識，及技術交易資訊，專注於科技產業的創新與發展，包含自 2008 年至 2023 年。
科學發展月刊	《科學發展月刊》為國科會為推廣科學教育而出版的科普刊物，含自2004年10月至2020年12月之科普文章；2021年起，以《科技魅癮》季刊重新出發，提供國際關注科技議題的新知文章。
法規資料庫	《法規資料庫》含截自 112 年 10 月各政府部門最新發布之中央法規、行政規則、法規命令草案及地方自治法規等。
各地政府旅遊網	涵蓋台灣部分縣市地方政府觀光旅遊網站上之部分資料。
國教院課程綱要(十二年國教)	含十二年國教課程綱要之總綱以及各級學校不同科目之課程綱要。
中央社譯名檔資料庫	《中央社譯名檔資料庫》蒐集中央社新聞業務上翻譯過的中外姓氏、人名、組織、地名等譯名對照。
RedPajama-Data-V2	從國外開放多國語言語料庫 RedPajama-Data-v2 取出英文資料
MathPile-commercial	國外開放數學語料庫 MathPile-commercial
中文維基百科	《中文維基百科》截至2023年1月所有條目的內容。
github-code-clean	為 github 開源程式碼資料集，去除unlicense的程式碼和文件。

微調資料
- TAIDE團隊訓練Llama3及Gemma-3系列模型來產生微調資料，產生的任務包含世界知識、創意寫作、普通常識、翻譯、摘要、程式、台灣價值等單輪或多輪對話問答，共 220K 筆。

模型評測

TMMLU +

評測資料
- STEM, Humanities, Social Sciences, Other (Business, Health, Misc.)，共66個子類別，20,118 題。
評測方法
- 評分程式: lm-evaluation-harness

評測分數

模型	STEM	Humanities	Social Sciences	Other	平均
Gemma-3-TAIDE-12b-Chat	48.00	47.59	58.19	45.68	49.95
Gemma-3-12b-it	56.00	44.41	60.52	50.36	53.82
Llama-3.1-TAIDE-LX-8B-Chat	42.11	46.23	50.96	43.22	45.58

由於 Gemma-3-TAIDE-12b-Chat 有特別加強台灣相關知識，故同時參考 TMMLU+ 的台灣相關指標（台灣地理、台灣用語、閩南語）。

模型台灣地理台灣用語閩南語

Gemma-3-TAIDE-12b-Chat 69.14 80.53 38.76

Gemma-3-12b-it 60.93 71.68 28.68

Llama-3.1-TAIDE-LX-8B-Chat 62.36 75.10 31.78

模型	台灣地理	台灣用語	閩南語
Gemma-3-TAIDE-12b-Chat	69.14	80.53	38.76
Gemma-3-12b-it	60.93	71.68	28.68
Llama-3.1-TAIDE-LX-8B-Chat	62.36	75.10	31.78

taide-bench

評測資料
- 寫文章、寫信、摘要、英翻中、中翻英，共500題
- 資料連結: taide-bench
評測方法
- gpt-4o評分
- 評分程式: taide-bench-eval

評測分數

模型	中翻英	英翻中	摘要	寫文章	寫信	平均
Gemma-3-TAIDE-12b-Chat	7.99	8.46	7.64	9.73	9.57	8.67
Gemma-3-12b-it	8.24	8.44	7.77	9.60	9.46	8.70
Llama-3.1-TAIDE-LX-8B-Chat*	6.99	7.26	9.17	8.80	7.18	7.88

*註：由於更換評測 judge prompt，故 Llama-3.1-TAIDE-LX-8B-Chat 的 taide-bench 評測分數與前次釋出的分數不同。

授權條款

（Gemma 版次）-TAIDE 模型授權條款

免責聲明

LLM 模型由於設計架構的限制，以及資料難免有偏誤，語言模型的任何回應不代表 TAIDE 立場，使用前需要額外加入安全防護機制，且回應內容也可能包含不正確的資訊，使用者請勿盡信。

開發團隊

https://taide.tw/index/teamList

Citation

TAIDE官網

nctu6
/

Gemma-3-TAIDE-12b-Chat-GGUF

模型簡介

支援模態

模型參數

特色

應用範例

使用說明

訓練方法

訓練資料

模型評測

授權條款

免責聲明

開發團隊

相關連結

Citation