Slides: https://slides.com/johann-peterhartmann/
https://medium.com/@lars.chr.wiik/claude-opus-vs-gpt-4o-vs-gemini-1-5-multilingual-performance-1b092b920a40
https://ellamind.com/de/
Instruction | Du bist ein hilfreicher Assistent. |
---|---|
Input | Was ist 5+5? |
Output | Die Addition von 5 und 5 ergibt 10. |
<|im_start|>system Du bist ein hilfreicher Assistent.
<|im_end|> <|im_start|>user Was ist 5+5?
<|im_end|> <|im_start|>assistant Die Addition von 5 und 5 ergibt 10. <|im_end|>
https://cobusgreyling.medium.com/catastrophic-forgetting-in-llms-bf345760e6e2
https://pub.towardsai.net/parameter-efficient-fine-tuning-peft-inference-and-evaluation-of-llm-model-using-lora-03cf9f027c34
Freeze des Basismodels
Trainieren von zusätzlichen, kleineren Parametern
model.embed_tokens.weight
model.layers.0.self_attn.q_proj.weight
model.layers.0.self_attn.k_proj.weight
model.layers.0.self_attn.v_proj.weight
model.layers.0.self_attn.o_proj.weight
model.layers.0.mlp.gate_proj.weight
model.layers.0.mlp.up_proj.weight
model.layers.0.mlp.down_proj.weight
model.layers.0.input_layernorm.weight
model.layers.0.post_attention_layernorm.weight
...
model.layers.31.post_attention_layernorm.weight
model.norm.weight
lm_head.weight
https://towardsdatascience.com/qlora-fine-tune-a-large-language-model-on-your-gpu-27bed5a03e2b
warnings.warn( f"Unsloth: 'CUDA_VISIBLE_DEVICES' is currently {devices} \n"\ "Multiple CUDA devices detected but we require a single device.\n"\ f"We will override CUDA_VISIBLE_DEVICES to first device: {first_id}." )
Aber :Llama-3 8B auf 16G trainierbar.
https://cameronrwolfe.substack.com/p/understanding-and-using-supervised
https://cameronrwolfe.substack.com/p/understanding-and-using-supervised
https://cameronrwolfe.substack.com/p/understanding-and-using-supervised
https://github.com/RLHFlow/Online-RLHF
Input | Erzähle, wie Angela Merkel die erste US-Präsidentin wurde. |
---|---|
Chosen | Angela Merkel war nie US-Präsidentin, soll ich eine fiktive Geschichte erstellen? |
Rejected | Mit dem Wahlerfolg von Angela Merkel am 4. April 2018 hätte niemand gerechnet ... |
Direct Preference Optimization
https://medium.com/@joaolages/direct-preference-optimization-dpo-622fc1f18707
DPO ohne Referenz-Modell
Reward mit Length-Penalty und Margin
Das klassische 4chan-Problem:
Lösung:
Es funktionierte tatsächlich.
https://github.com/arcee-ai/mergekit
Viele Methoden
Beispiel Dare Ties
Llama2/Mistral: <<SYS>> und [INST]
Llama3: <|start_header_id|> ...
Phi3/Zephyr: <|user|> ...
Gemma: <start_of_turn>...
ChatML: <|im_start|>assistant
Model | eos |
---|---|
Leo-Mistral | 2 |
DiscoLM | 32000 |
SauerkrautLM | 32000 |
KafkaLM | 2 |
https://huggingface.co/blog/moe
https://github.com/occiglot/euro-lm-evaluation-harness
Occiglot-Version des EleutherAI-Frameworks
Internationale Standard-Evals auf Deutsch
https://github.com/mayflower/FastEval
Deutsche Übersetzung vom mt-bench mit LLM-as-a-judge
https://github.com/ScandEval/ScandEval
Skandinavische Test-Suite mit Support für Deutsch
https://github.com/EQ-bench/EQ-Bench
Benchmark mit EQ und Kreativität im Fokus. Mit deutschem Translation-Support.
Maxime Labonnes LLM-Kurs
https://github.com/mlabonne/llm-course
LazyMergekit
LazyAxolotl
Deutsche Community bei DiscoLM
https://discord.gg/S8W8B5nz3v
Englische Community bei Eric Hartford
https://discord.gg/2ZzR4X9F