GitHub - kime541200/SyntheticWithFiles: Generate synthetic dataset with specific documents locally.

講述如何使用LLM來產生「基於特定文件」的合成資料集✨️

Table of content

合成資料？📃
簡單來講就是用生成式AI來產生的資料. (詳見What is synthetic data?)
為什麼需要基於特定領域的知識來產生合成資料？🤔
1. 在企業內部有許多專業領域知識(domain knowledge)都是只有在該領域的專家才懂, 且這些資料大多都不容易閱讀.
2. 透過微調讓LLM可以更貼近特定領域的應用場景, 而要微調便需要先準備好資料.

Python
Ollama
本文主要作為示範目的, 所以就只用llama3.1-8b-q4_0的模型來跑(效果已經很不錯了🤩)
詳見 How to Run LLM Models Locally with Ollama?

(如果想要使用更大的模型, 但是卻沒有足夠的硬體, 非常推薦使用 Groq🚀 或是 Nvidia NIM🌲)

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
imgs		imgs
.gitignore		.gitignore
README.md		README.md
example.md		example.md
run.ipynb		run.ipynb