MinistryofDigitalAffairs commited on
Commit
a3c3d0f
verified
1 Parent(s): d599530

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +16 -0
README.md CHANGED
@@ -141,8 +141,24 @@ zr贸b mi t臋 przyjemno艣膰 i przyjd藕 wreszcie, prosz臋!
141
  ```
142
  Your results may vary depending on model parameters (e.g., temperature, top_k, top_p), hardware, and other settings.
143
 
 
 
144
 
 
145
 
 
 
 
 
 
 
 
 
 
 
 
 
 
146
 
147
  ## Training Procedure
148
  - **Datasets**: ~150B tokens from Polish and multilingual sources, with ~28B tokens available for fully open-source commercial use.
 
141
  ```
142
  Your results may vary depending on model parameters (e.g., temperature, top_k, top_p), hardware, and other settings.
143
 
144
+ ### 6. Retrieval Augmented Generation (RAG)
145
+ Our Llama-PLLuM models (both chat and instruct versions) were additionally trained to perform well in Retrieval Augmented Generation (RAG) setting. The prompt is in .jinja format, where docs is a list of document texts and question is a query that should be answered based on the provided documents. If there is no answer in the provided documents model generates "Nie uda艂o mi si臋 odnale藕膰 odpowiedzi na pytanie".
146
 
147
+ Prompt:
148
 
149
+ ```
150
+ Numerowana lista dokument贸w jest poni偶ej:
151
+ ---------------------
152
+ <results>{% for doc in docs %}
153
+ Dokument: {{ loop.index0 }}
154
+ {{ doc }}
155
+ {% endfor %}</results>
156
+ ---------------------
157
+ Odpowiedz na pytanie u偶ytkownika wykorzystuj膮c tylko informacje znajduj膮ce si臋 w dokumentach, a nie wcze艣niejsz膮 wiedz臋.
158
+ Udziel wysokiej jako艣ci, poprawnej gramatycznie odpowiedzi w j臋zyku polskim. Odpowied藕 powinna zawiera膰 cytowania do dokument贸w, z kt贸rych pochodz膮 informacje. Zacytuj dokument za pomoc膮 symbolu [nr_dokumentu] powo艂uj膮c si臋 na fragment np. [0] dla fragmentu z dokumentu 0. Je偶eli w dokumentach nie ma informacji potrzebnych do odpowiedzi na pytanie, zamiast odpowiedzi zwr贸膰 tekst: "Nie uda艂o mi si臋 odnale藕膰 odpowiedzi na pytanie".
159
+
160
+ Pytanie: {{ question }}
161
+ ```
162
 
163
  ## Training Procedure
164
  - **Datasets**: ~150B tokens from Polish and multilingual sources, with ~28B tokens available for fully open-source commercial use.