Safetensors
Russian
bert
latushko-anna commited on
Commit
4c8bc81
·
verified ·
1 Parent(s): d86987e

Upload mode, datasets, tokenizer files

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ datasets/formulae_dataset.csv filter=lfs diff=lfs merge=lfs -text
datasets/formulae_dataset.csv ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7aecb3339d42da0c0b3dee4ba3fbee551ebf76eeb39d89be809a8b7ab5ffdea2
3
+ size 116834775
datasets/testing_tasks_dataset.csv ADDED
@@ -0,0 +1,111 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ formula,name,topic,context
2
+ \[|f(x)|\leqslant C|g(x)|\],«O» большое,Математический анализ;Анализ алгоритмов,"Если в правой части уравнения находится только асимптотическое обозначение (например \(n=O(n^{2})\)), то знак равенства обозначает принадлежность множеству (\(n\in O(n^{2})\))."
3
+ \[\Delta =\sup _{a\leqslant x\leqslant b}|f(x)-g(x)|\],Абсолютное отклонение,Математический анализ;Математическая статистика,"В случаях, когда заведомо известно, что выбранная точка является константой, а распределение элементов данных симметрично относительно неё, — при отсутствии дополнительных данных за точку отсчёта абсолютного отклонения принимается медиана или среднее значение рассматриваемой совокупности данных: \(|D|=|x_{i}-m(X)|\),
4
+ где \(|D|\) — абсолютное отклонение, \(x_{i}\) — элемент совокупности данных, \(m(X)\) — одно из средних значений совокупности данных; это может быть среднее арифметическое (\({\overline {x}}\)), но чаще всего в качестве среднего значения берётся медиана."
5
+ \[\Psi (\tau )=\int _{-\infty }^{\infty }f(t)f^{*}(t-\tau )\mathrm {d} t\],Автокорреляционная функция,Случайные процессы;Регрессионный анализ;Обработка сигналов;Математическая статистика,"Корреляционные свойства кодовых последовательностей, используемых в широкополосных системах, зависят от типа кодовой последовательности, её длины, частоты следования её символов и от её посимвольной структуры. Изучение АКФ играет важную роль при выборе кодовых последовательностей с точки зрения наименьшей вероятности установления ложной синхронизации."
6
+ "\[\forall X\left[\varnothing \notin X\Rightarrow \exists f\colon X\rightarrow \bigcup X\quad \forall A\in X\,(f(A)\in A)\right]\]",Аксиома выбора,Теория множеств;Функциональный анализ,"Функция выбора — функция на множестве множеств \(X\) такая, что для каждого множества \(s\) в \(X\), \(f(s)\) является элементом из \(s\). С использованием понятия функции выбора аксиома утверждает: Для любого семейства непустых множеств \(X\) существует функция выбора \(f\), определённая на \(X\). Или наиболее сжато: Каждое множество непустых множеств имеет функцию выбора."
7
+ "\[\forall (a,b\in G)\quad \exists (x,y\in G)\colon (a*x=b)\land (y*a=b)\]",Аксиома существования операции обратной ∗,Теория групп;Алгебра,"При этом вышеприведённые аксиомы не являются строго минимальными. Для существования нейтрального и обратного элементов достаточно наличия левого нейтрального элемента и левого обратного элемента. При этом можно доказать, что они автоматически будут обычным нейтральным и обратным элементами."
8
+ "\[L\,y(x)=\sum _{k=1}^{M}c_{k}y(ax-b_{k})\]",Атомарная функция,Функциональный анализ;Теория приближений,"Обстоятельства появления функции \(\operatorname {up} (x)\) связаны с проблемой, поставленной в 1967 году В. Л. Рвачёвым и решённой В. А. Рвачёвым: найти такую финитную дифференцируемую функцию, что её график имел бы вид «горба» с одним участком возрастания и одним участком убывания, а график её производной состоял бы из «горба» и «ямы», причём последние были бы подобны «горбу» самой функции, ��. e. представляли бы собой — с точностью до масштабного коэффициента — сдвинутую и сжатую копию графика исходной функции."
9
+ "\[\mathrm {B} (x,y)=\int \limits _{0}^{1}t^{x-1}(1-t)^{y-1}\,dt\]",Бета-функция,Специальные функции,"Подобно тому как гамма-функция для целых чисел является обобщением факториала, данная функция является обобщением биномиальных коэффициентов с немного изменёнными параметрами: \({\binom {n}{k}}={\frac {1}{(n+1)\mathrm {B} (n-k+1,k+1)}}\)."
10
+ "\[{\begin{aligned}(1+x)^{\alpha }&=\sum _{k=0}^{\infty }\;{\binom {\alpha }{k}}\;x^{k}\\&=1+\alpha x+{\frac {\alpha (\alpha -1)}{2!}}x^{2}+{\frac {\alpha (\alpha -1)(\alpha -2)}{3!}}x^{3}+\cdots ,\end{aligned}}\]",Биномиальный ряд,Математический анализ,"Если \(\alpha\) является неотрицательным целым числом n, то \((n+2)\)-й член и все последующие члены в последовательности равны 0, поскольку каждый из них содержит множитель \((n-n)\), так что в этом случае ряд конечен и образует алгебраическую формулу бинома Ньютона."
11
+ \[f\colon E_{2}^{n}\to E_{2}\],Булева функция,Булева алгебра;Математическая логика;Теория дискретных функций,"При работе с такими функциями происходит полное абстрагирование от того содержательного смысла, какой предполагается в алгебре высказываний. Тем не менее между ними и формулами алгебры высказываний можно установить взаимно-однозначное соответствие."
12
+ "\[V_{a}^{b}f\,{\stackrel {\mathrm {def} }{=}}\sup \limits _{P}\sum \limits _{k=0}^{m}|f(x_{k+1})-f(x_{k})|\]",Вариация функции,Математический анализ,"Сумма и произведение функций ограниченной вариации тоже будет иметь ограниченную вариацию. Частное двух функций из \(V\) будет иметь ограниченную вариацию (другими словами, принадлежать классу \(V\)), если модуль знаменателя будет больше, чем положительная постоянная на отрезке \([a,\;b]\)."
13
+ \[\mathbf {a} ={\frac {d\mathbf {v} }{dt}}={\frac {d^{2}{\boldsymbol {x}}}{dt^{2}}}\],Вторая производная,Математический анализ,"Для многих краевых задач можно получить явные формулы для собственных значений и собственных векторов оператора. Например, если предположить, что \(x\in [0,L]\) и заданы однородные граничные условия Дирихле (то есть \(v(0)=v(L)=0\)), то собственные значения \(\lambda _{j}=-{\tfrac {j^{2}\pi ^{2}}{L^{2}}}\) и соответствующие собственные векторы (также называемые собственными функциями) равны \(v_{j}(x)={\sqrt {\tfrac {2}{L}}}\sin \left({\tfrac {j\pi x}{L}}\right)\). Здесь \(v''_{j}(x)=\lambda _{j}v_{j}(x),\,j=1,\ldots ,\infty\)."
14
+ \[H_{n}=\sum _{k=1}^{n}{\frac {1}{k}}=1+{\frac {1}{2}}+{\frac {1}{3}}+\cdots +{\frac {1}{n}}\],Гармоническое число,Теория чисел;Специальные функции,"Изучение этих чисел началось в античности. Они имеют важное значение в различных областях теории чисел и теории алгоритмов и, в частности, тесно связаны с дзета-функцией Римана."
15
+ \[g\left(x\right)=ae^{-{\frac {(x-b)^{2}}{2c^{2}}}}\],Гауссова функция,Элементарная математика;Математический анализ;Теория вероятностей,"Существуют многомерные обобщения функции. Кроме применений в теории вероятностей, статистике и других многочисленных приложениях как функции плотности нормального распределения, функция имеет самостоятельное значение в математическом анализе, математической физике, теории обработки сигнал��в."
16
+ "\[b_{1}\neq 0,q\neq 0;b_{n+1}=b_{n}\cdot q,n\in \mathbb {N} ,n\geqslant 2\]",Геометрическая прогрессия,Элементарная математика,"Данный признак можно расширить на другие случаи. Если её члены отрицательны, получим \(b_{n}=-{\sqrt {b_{n-1}\cdot b_{n+1}}}\), где \(n\geqslant 2\).
17
+
18
+ Если знаки членов прогрессии чередуются, получим \(b_{n}=\left(-1\right)^{n+j}{\sqrt {b_{n-1}\cdot b_{n+1}}}\), где \(j=0\) либо \(j=1\) и \(n\geqslant 2\)."
19
+ \[D[X]=\mathbb {E} \left[{\big (}X-\mathbb {E} [X]{\big )}^{2}\right]\],Дисперсия случайной величины,Математическая статистика,"Из неравенства Чебышёва следует, что вероятность того, что значения случайной величины отстоят от математического ожидания этой случайной величины более чем на \(k\) стандартных отклонений, составляет менее \(1/k^{2}\). В специальных случаях оценка может быть усилена. Так, например, как минимум в 95 % случаев значения случайной величины, имеющей нормальное распределение, удалены от её среднего не более чем на два стандартных отклонения, а в примерно 99,7 % — не более чем на три."
20
+ \[\left\{{\begin{matrix}a\times (b+c)=(a\times b)+(a\times c)\\(b+c)\times a=(b\times a)+(c\times a)\end{matrix}}\right\],Дистрибутивность,Арифметика;Элементарная математика;Алгебра,"Относительно соответствующих аддитивных операций, мультипликативные операции в кольцах и полях, по определению, удовлетворяют данному свойству."
21
+ \[x^{m}(a+bx^{n})^{p}\;dx\],Дифференциальный бином,Математический анализ,"Интеграл \(\int {\sqrt[{3}]{1+x^{2}}}dx\)
22
+ не выражается в элементарных функциях, здесь \(m=0,n=2,p={1 \over 3}\), и ни одно из трёх условий для m, n и p не выполнено.
23
+
24
+ В то же время интеграл \(\int {\sqrt {1+x^{2}}}dx={x{\sqrt {x^{2}+1}} \over 2}+{1 \over 2}\ln(x+{\sqrt {x^{2}+1}})+C\),
25
+ как видим, выражается в элементарных функциях, поскольку здесь \(m=0,n=2,p={1 \over 2}\), и \({m+1 \over n}+p=1\), то есть является целым числом."
26
+ \[A\vee \neg A\],Закон исключенного третьего,Математическая логика,"С «интуиционистской» (и, в частности, «конструктивистской») точки зрения установление истинности высказывания вида «А или не А» означает: 1) либо установление истинности \(A\); 2) либо установление истинности его отрицания \(\neg A\).
27
+ Поскольку, вообще говоря, не существует общего метода, позволяющего для любого высказывания за конечное число шагов установить его истинность или истинность его отрицания, данный закон не должен применяться в рамках интуиционистского и конструктивного направлений в математике как аксиома."
28
+ "\[V_{2}=V_{1}\left({\frac {\ell _{2}}{\ell _{1}}}\right)^{3},\qquad A_{2}=A_{1}\left({\frac {\ell _{2}}{\ell _{1}}}\right)^{2}\]",Закон квадрата — куба,Биомеханика,Этот закон находит своё применение в технике и биомеханике и базируется на математическом пересчёте размеров. Его первым продемонстрировал Галилео Галилей в 1638 году в Discorsi e dimostrazioni matematiche intorno a due nuove scienze («Беседы и математические доказательства двух новых наук»).
29
+ \[((P\to Q)\to P)\to P\],Закон Пирса,Математическая логика,"Данный закон является тавтологией классической логики, однако при этом как правило не выполняется в неклассических логиках, в частности в интуиционистской логике. При этом его добавление к любой аксиоматике интуиционистской логики, превращает её в классическую."
30
+ \[{\begin{matrix}\neg {(a\wedge b)}=\neg {a}\vee \neg {b}\\\neg {(a\vee b)}=\neg {a}\wedge \neg {b}\end{matrix}}\],Законы де Моргана,Математическая логика,"Если существует суждение, выраженное операцией логического умножения двух или более элементов, то есть операцией «и»: \({(A\wedge B)}\), то для того, чтобы найти обратное \({\neg (A\wedge B)}\) от всего суждения, необходимо найти обратное от каждого элемента и объединить их операцией логического сложения, то есть операцией «или»: \((\neg {A}\vee \neg {B})\). Закон работает аналогично в обратном направлении: \(\neg (A\vee B)=(\neg {A}\wedge \neg {B})\)."
31
+ \[f(u*v)=f(u)\circ f(v)\],Изоморфизм групп,Теория групп;Алгебра,"Это записывается следующим образом: \((G,*)\cong (H,\circ )\). Часто используется более короткая и простая запись. Если групповые операции не приводят к двусмысленности, их опускают: \(G\cong H\) (Иногда даже пишут просто G = H. Не приведёт ли такая запись к путанице и двусмысленности, зависит от контекста. Например, употребление знака равно не очень подходит в случае, когда две группы являются подгруппами одной и той же группы)."
32
+ "\[\mathbf {1} _{A}(x)=\left\{{\begin{matrix}1,&x\in A,\\0,&x\notin A,\end{matrix}}\right\]",Индикаторная функция,Теория множеств;Математический анализ;Теория вероятностей;Дискретная математика,"Альтернативными обозначениями индикатора множества \(A\) являются: \(\chi _{A}\) или \(\mathbf {I} _{A}\), а иногда даже \(A(x)\) а также скобка Айверсона \([x\in A]\). (Греческая буква \(\chi\) происходит от начальной буквы греческого написания слова характеристика.)"
33
+ "\[\mathrm {cov} (X,Y)=\mathbb {E} \left[(X-\mathbb {E} X)(Y-\mathbb {E} Y)\right]\]",Ковариация,Теория вероятностей;Математическая статистика,"По абсолютному значению данной меры нельзя судить о том, насколько сильно величины взаимосвязаны, так как масштаб ковариации зависит от их дисперсий. Её значение можно нормировать, поделив на произведение среднеквадратических отклонений (квадратных корней из дисперсий) случайных величин."
34
+ \[f(z)=u(z)+iv(z)\],Комплексная функция,Математический анализ,"Если подобная функция дифференцируема в некоторой области, она автоматически становится аналитической, что означает её разложимость в степенной ряд (ряд Тейлора) вблизи любой точки этой области. При этом данный ряд будет сходиться к функции в пределах определённого радиуса сходимости. Такое поведение сильно отличается от поведения функций действительного переменного, где наличие одной или нескольких производных вовсе не гарантирует бесконечную дифференцируемость функции."
35
+ \[A_{S}={\frac {\mu _{3}}{\sigma ^{3}}}\],Коэффициент асимметрии,Теория вероятностей,"Неформально говоря, данный коэффициент положителен, если правый хвост распределения длиннее левого, и отрицателен в противном случае. Если распределение симметрично относительно математического ожидания, то его коэффициент равен нулю."
36
+ "\[\sum _{x\in F_{2}^{n}}(-1)^{f(x)+<u,x>}\]",Коэффициент Уолша,Дискретная математика,"Коэффициенты могут быть вычислены за \(O(n2^{n})\) действий. Для этого нужно в начале проинициализировать массив \(a\): \(a[x]=(-1)^{f(x)}\). После чего для каждой координаты \(i\) и для каждой пары точек \(x\) и \(y\), отличающихся по \(i\)-й координате, нужно заменить значения \(a[x]\) и \(a[y]\) на \(a[x]+a[y]\) и \(a[x]-a[y]\) (считаем, что у \(x\) \(i\)-й бит сброшен, а у \(y\) установлен). Окончательное состояние массива \(a\) и будет коэффициентами Уолша."
37
+ \[\chi ^{2}=n\sum _{i=1}^{k}{\frac {\left(n_{i}/n-P_{i}(\theta )\right)^{2}}{P_{i}(\theta )}}\],Критерий согласия Пирсона,Теория вероятностей;Математическая статистика,"Критерий может использоваться при проверке простых гипотез вида \(H_{0}:F_{n}(x)=F(x,\theta )\), где \(\theta\) — известный вектор параметров теоретического закона, и при проверке сложных гипотез вида \(H_{0}:F_{n}(x)\in \left\{F(x,\theta ),\theta \in \Theta \right\}\), когда оценка \({\hat {\theta }}\) скалярного или векторного параметра распределения \(F(x,\theta )\) вычисляется по той же самой выборке."
38
+ "\[h(p,x)={\frac {\partial e(p,x)}{\partial p}}\]",Лемма Шепарда,Микроэкономика;Теория потребления;Математическая экономика,Данное соотношение используется в микроэкономической теории потребителя и определяет связь функции расходов и хиксианского спроса.
39
+ \[\forall a\in A\;(a\geqslant M\Rightarrow a=M)\],Максимальный элемент частично упорядоченного множества,Математический анализ,"Записывается как \(M=\max A\). В случае линейно упорядоченного множества (например, в случае подмножества вещественной прямой \({R}\) с естественным порядком) понятие совпадает с понятием наибольшего элемента, но в общем случае эти понятия различаются"
40
+ \[|f(x+v)-f(x+w))|_{X}=MD_{x}f(v-w)+o(|v|-|w|)\],Метрический дифференциал,Математический анализ;Топология,"Прямое обобщение теоремы Радемахера невозможно, поскольку метрическое пространство не обладает линейной структурой, требуемой для дифференциала. Даже в случае банахова пространства \(X=L^{1}([0,1])\) заключение самой теоремы неверно — например, отображение \( f\colon [0,1]\to X\), определённое как индикатор \(f(x)=\chi _{[0,x]}\), не имеет производную ни в одной точке, несмотря на то, что отображение липшицево и даже сохраняет расстояния."
41
+ \[\int \limits _{0}^{1}x^{x}dx=\sum _{n=1}^{\infty }(-1)^{n+1}n^{-n}=-\sum _{n=1}^{\infty }(-n)^{-n}\],Мечта второкурсника,Математический анализ,"Исходное доказательство, данное Бернулли и представленное в современном виде, отличается от приведённого выше в части расчёта интеграла \(\int _{0}^{1}x^{n}(\log \,x)^{n}\,dx\), но в остальном идентично за исключением технических деталей. Вместо интегрирования путем подстановки, используя Гамма-функцию (которая на момент доказательства ещё не была известна), Бернулли использовал интегрирование по частям."
42
+ \[S(t)=\prod \limits _{j=1}^{t}\left({\frac {n-j}{n-j+1}}\right)^{\sigma (j)}\],Множительные оценки Каплана—Мейера,Математика в медицине;Эконометрика,"Для цензурированных, но несгруппированных наблюдений времён жизни функцию выживания можно оценить непосредственно (без таблицы времени жизни). Допустим, существует база данных, в которой каждое наблюдение содержит точно один временной инте��вал. Перемножая вероятности выживания в каждом интервале, получим следующую формулу для функции выживания."
43
+ \[R_{n}(z)=\sum _{k=1}^{n}{\frac {1}{z-z_{k}}}\],Наипростейшая дробь,Алгебра,"Другими словами, данная рациональная функция есть логарифмическая производная некоторого комплексного многочлена \(Q_{n}(z)=C\prod _{k=1}^{n}(z-z_{k})\),
44
+ таким образом, \(R_{n}(z)={\frac {Q_{n}'(z)}{Q_{n}(z)}}\)."
45
+ "\[\Pr(|X-m|>k)\leq {\begin{cases}\left({\frac {2\tau }{3k}}\right)^{2},&{\text{if }}k\geq {\frac {2\tau }{\sqrt {3}}};\\[6pt]1-{\frac {k}{\tau {\sqrt {3}}}},&{\text{if }}0\leq k\leq {\frac {2\tau }{\sqrt {3}}}.\end{cases}}\]",Неравенство Гаусса,Теория вероятностей,"Даёт верхнюю границу вероятности того, что одномодальная случайная величина выходит за пределы интервала с центром в её моде."
46
+ \[\mathrm {D} _{\theta }{\big (}{\widehat {\theta }}(x){\big )}\geqslant {\frac {(\tau '(\theta ))^{2}}{nI(\theta )}}\],Неравенство Крамера — Рао,Теория информации;Математическая статистика;Теория оценивания,"Часто используется следующий частный случай: если выполнены условия регулярности, а \({\widehat {\theta }}(x)\) — несмещённая оценка параметра \(\theta\), то:\(\mathrm {D} _{\theta }\,{\widehat {\theta }}(x)\geqslant {\frac {1}{I_{n}(\theta )}}\).
47
+ Равенство в этом неравенстве достигается тогда и только тогда, когда \({\hat {\theta }}(x)-\theta =a(\theta )U(\theta ,x)\)."
48
+ \[\sum _{n=1}^{\infty }\left({\frac {a_{1}+a_{2}+\cdots +a_{n}}{n}}\right)^{p}<\left({\frac {p}{p-1}}\right)^{p}\sum _{n=1}^{\infty }a_{n}^{p}\],Неравенство Харди,Математический анализ,Из данного неравенства можно вывести как следствие неравенство Карлемана. У интегрального неравенства имеются многочисленные обобщения.
49
+ \[ab\leqslant \int \limits _{0}^{a}f(x)dx+\int \limits _{0}^{b}f^{-1}(x)dx\],Неравенство Юнга,Математический анализ,"Естественное следствие — \(ab\leqslant af(a)+bf^{-1}(b)\) (в тех же условиях). Неравенство Фенхеля может быть рассмотрено как обобщение этого следствия — результат распространяется на пару выпукло-сопряжённых функций \(f\) и \(f^{*}\) в соответствующих векторных пространствах \(a\in X\) и \(b\in X^{*}\) (двойственном пространстве): \(\left\langle a,b\right\rangle \leqslant f(a)+f^{*}(b)\)."
50
+ "\[F(x,y,y',y'',...,y^{(n)})=0,\qquad (1)\]",Обыкновенное дифференциальное уравнение,Математический анализ,"Независимая переменная \(x\) часто интерпретируется (особенно в дифференциальных уравнениях, возникающих в физических и других естественно-научных задачах) как время, поэтому её часто обозначают буквой \(t\). Переменная \(y\) — некоторая величина (или совокупность величин, если \(y\) является вектор-функцией), изменяющаяся со временем. Например, \(y\) может означать набор координат точки в пространстве; в этом случае уравнение (1) описывает движение точки в пространстве, то есть изменение её координат с течением времени."
51
+ \[c_{0}\cdot f(x)^{n}+c_{1}\cdot f(x)^{n-1}\cdot g(x)+c_{2}\cdot f(x)^{n-2}\cdot g(x)^{2}+\ldots +c_{n-1}\cdot f(x)\cdot g(x)^{n-1}+c_{n}\cdot g(x)^{n}=0\],Однородное уравнение,Математический анализ;Алгебра,Такое уравнение после исключения отдельно рассматриваемого случая \(g(x)=0\) и деления уравнения на \(g(x)^{n}\) сводится с помощью замены \({\frac {f(x)}{g(x)}}=t\) к алгебраическому уравнению \(n\)-ой степени \(c_{0}t^{n}+c_{1}t^{n-1}+c_{2}t^{n-2}+\ldots +c_{n-1}t+c_{n}=0\).
52
+ \[O_{\varepsilon }(x_{0})=\{x:|x-x_{0}|<\varepsilon \}\],Окрестность точки на числовой прямой,Математический анализ;Топология,Данной характеристикой точки \(x_{0}\) таким образом является открытый шар с центром в \(x_{0}\) и радиусом \(\varepsilon\).
53
+ \[\omega (z)=W_{{\big \lceil }{\frac {\mathrm {Im} (z)-\pi }{2\pi }}{\big \rceil }}(e^{z})\],Омега-функция Райта,Математический анализ;Специальные функции,"Одним из основных применений этой функции является решение уравнения z = ln(z), поскольку единственным решением является z = е−ω(π i). y = ω(z) — единственное решение при \(z\neq x\pm i\pi\), х ≤ −1 уравнения y + ln(y) = z. За исключением этих двух лучей, данная функция является непрерывной, даже аналитической."
54
+ "\[\det A=\sum _{\alpha _{1},\alpha _{2},\ldots ,\alpha _{n}}(-1)^{N(\alpha _{1},\alpha _{2},\ldots ,\alpha _{n})}\cdot a_{1\alpha _{1}}a_{2\alpha _{2}}\dots a_{n\alpha _{n}}\]",Определитель матрицы,Алгебра,"При изучении данной теории полезно иметь в виду, что в ее основе лежит техника манипулирования со строками и столбцами матриц, разработанная К. Ф. Гауссом (преобразования Гаусса). Суть этих преобразований сводится к линейным операциям над строками (столбцами) и их перестановке."
55
+ "\[T(n)=a\,T\left({\frac {n}{b}}\right)+f(n),\quad {\text{где}}~a\geqslant 1,\ b>1\]",Основная теорема о рекуррентных соотношениях,Математический анализ;Теория сложности вычислений;Анализ алгоритмов,"Теорема была введена и доказана Джоном Бентли, Доротеном Хакеном и Джеймсом Хакеном в 1980 году. Теорема была популяризована в книге Алгоритмы: построение и анализ (Томас Кормен, Чарльз Лейзерстон, Рональд Ривест, Клиффорд Штайн), в которой она была приведена. Не все рекурсивные соотношения могут быть решены с помощью основной теоремы. Существует несколько её обобщений, в том числе метод Акры — Бацци."
56
+ "\[{\hat {\theta }}_{\mathrm {M\Pi } }={\hat {\theta }}_{\mathrm {M\Pi } }(X_{1},\ldots ,X_{n})=\mathop {\rm {argmax}} \limits _{\theta \in \Theta }L(X_{1},\ldots ,X_{n}\mid \theta )\]",Оценка максимального правдоподобия,Математическая статистика;Эконометрика;Факторный анализ;Теория оценивания,"Для фиксированного набора данных и базовой вероятностной модели, используя данный метод, мы получим значения параметров модели, которые делают данные «более близкими» к реальным. Данная оценка даёт уникальный и простой способ определить решения в случае нормального распределения. Этот метод применяется для широкого круга статистических моделей."
57
+ "\[f(x+T)=f(x),\quad \forall x\in M\]",Периодическая функция,Математический анализ;Элементарная математика,"Сумма двух функций с соизмеримыми периодами \(T_{1}\) и \(T_{2}\) не всегда является функцией с основным периодом, равным наименьшему общему кратному \(T_{1}\) и \(T_{2}\) (однако просто периодом это число будет являться). Например, у функции \(f(x)=\sin(2x)-\sin(3x)\) основной период равен \(2\pi\), у функции \(g(x)=\sin(3x)\) период равен \(2\pi /3\), а у их суммы \(f(x)+g(x)=\sin(2x)\) основной период, очевидно, \(\pi\)."
58
+ \[Ax+By+Cz+D=0\qquad (1)\],Плоскость,Геометрия;Стереометрия,"При систематическом изложении геометрии данное понятие обычно принимается за одно из исходных понятий, которое лишь косвенным образом определяется аксиомами геометрии. В тесной связи с ним принято рассматривать принадлежащие ему точки и прямые; они также, как правило, вводятся как неопределяемые понятия, свойства которых задаются аксиоматически."
59
+ \[\lim _{|D|\to 0}|E\cap D|/|D|\],Плотность множества,Топология,"Аналогично вводится данное понятие в \(n\)-мерном пространстве. При этом длины отрезков заменяются объемами соответствующих \(n\)-мерных параллелепипедов с гранями, параллельными координатным плоскостям, а предел рассматривается при стремлении к нулю диаметра параллелепипеда."
60
+ "\[P=a\oplus \bigoplus _{\begin{array}{c}1\leqslant i_{1}<\ldots <i_{k}\leqslant n\\k\in {\overline {1,n}}\end{array}}a_{i_{1},\ldots ,i_{k}}\wedge x_{i_{1}}\wedge \ldots \wedge x_{i_{k}},\quad a,a_{i_{1},\ldots ,i_{k}}\in \{0,1\}\]",Полином Жегалкина,Булева алгебра;Математическая логика;Теория дискретных функций,"Представляет собой сумму по модулю два попарно различных произведений неинвертированных переменных, где ни в одном произведении ни одна переменная не встречается больше одного раза, а также (если необходимо) константы 1."
61
+ "\[{\frac {C_{1},C_{2}}{C'_{1}\lor C'_{2}}}\]",Правило резолюций,Математическая логика,"Предложения \(C_{1}\) и \(C_{2}\) называются резольвируемыми (или родительскими), предложение \(C'_{1}\lor C'_{2}\) — резольвентой, а формулы \(P\) и \(\lnot P\) — контрарными литералами. В общем в правиле резолюции берутся два выражения и вырабатывается новое выражение, содержащее все литералы двух первоначальных выражений, за исключением двух взаимно обратных литералов."
62
+ "\[\forall {\text{ }}\varepsilon >0{\text{, }}\exists {\text{ }}N(\varepsilon ){\text{, }}\forall {\text{ }}n>N(\varepsilon ){\text{ }}{\text{ }}|x_{n}-a|<\varepsilon \]",Предел последовательности,Математический анализ;Топология,"В топологических пространствах, удовлетворяющих первой аксиоме счётности, данное понятие непосредственно связано с понятием предельной точки (множества): если у множества есть предельная точка, то существует последовательность элементов данного множества, сходящаяся к данной точке. Для произвольных топологических пространств такой последовательности может не существовать."
63
+ \[x^{n}+a_{n-1}x^{n-1}+\dots +a_{0}x^{0}\],Приведенный многочлен,Математический анализ;Алгебра,"В множестве комплексных чисел существует элемент 1 (единица), нейтральный относительно умножения, и при их сложении, вычитании, умножении и делении на ненулевое число получается всегда комплексное число, то есть это множество является полем, а значит, на этом поле любой многочлен можно свести к такому многочлену, корни которого остались бы те же, делением на старший коэффициент."
64
+ "\[(A\circ B)_{i,j}=(A\odot B)_{i,j}=(A)_{i,j}\cdot (B)_{i,j}\]",Произведение Адамара,Алгебра,"Используется в алгоритмах сжатия с потерями, например, JPEG. В программных пакетах MATLAB и GNU Octave операция используется как стандартная операция умножения массивов и обозначается символом «.*»."
65
+ \[f'(x_{0})=\lim _{\Delta x\rightarrow 0}{\frac {\Delta f}{\Delta x}}\],Производная функции,Математический анализ;Дифференциальное исчисление,"В классическом дифференциальном исчислении данное понятие чаще всего определяется через понятие предела, однако исторически теория пределов появилась позже дифференциального исчисления. Исторически оно вводилась кинематически (как скорость) или геометрически (определяясь по сути наклоном касательной, в разных конкретных формулировках)."
66
+ "\[\forall \varepsilon >0\colon ~\exists \delta =\delta (\varepsilon )>0\colon ~\forall x_{1},x_{2}\in M\colon ~{\bigl (}|x_{1}-x_{2}|<\delta {\bigr )}\Rightarrow {\bigl (}|f(x_{1})-f(x_{2})|<\varepsilon {\bigr )}\]",Равномерная непрерывность,Функциональный анализ;Математический анализ,"Данное понятие наглядно означает, что малые изменения аргумента приводят к малым изменениям значения функции. Свойство равномерности ставит дополнительное условие: величина, ограничивающая отклонение значения аргумента, должна зависеть только от величины отклонения функции, но не от значения аргумента, то есть должна быть пригодна на всей области определения функции."
67
+ \[\exists C>0\;\forall \alpha \in A\;\forall x\in X\;|f_{\alpha }(x)|\leqslant C\],Равномерная ограниченность,Математический анализ,"Понятие равномерная ограниченности семейства функций обобщается на случай отображений в нормированные и полунормированные пространства: семейство отображений \(f_{\alpha }:X\to Y\), где \(Y\) — полунормированное пространство с полунормой \(\Vert *\Vert\), называется равномерно ограниченным, если существует такая постоянная \(C>0\), что для всех \(\alpha \in A\) и всех \(x\in X\) выполняется неравенство \(\Vert f_{\alpha }(x)\Vert \leqslant C\)."
68
+ \[x={\frac {1}{a_{1}}}+{\frac {1}{a_{1}a_{2}}}+{\frac {1}{a_{1}a_{2}a_{3}}}+\cdots .\\],Разложение Энгеля,Математический анализ,"Любое положительное рациональное число имеет единственное конечное такое разложение. В алгоритме, если ui является рациональным числом x/y, то ui+1 = (−y mod x)/y. Таким образом, каждый шаг уменьшает числитель в остаточной дроби ui и процесс построения данного разложения должен прекратиться за конечное число шагов."
69
+ "\[r_{i}=\sum _{k=1}^{n}u(x_{i}-x_{k}),i=1,n\]",Ранг,Математическая статистика,Порядковый номер элемента \(x_{i}\) в вариационном ряду является знаковой статистикой от разностей выборочных значений.
70
+ "\[F(A,B)=\inf _{\alpha ,\beta }\,\,\max _{t\in [0,1]}\,\,{\Bigg \{}d{\Big (}A(\alpha (t)),\,B(\beta (t)){\Big )}{\Bigg \}}\]",Расстояние Фреше,Метрическая геометрия;Топология,"Неформально, мы можем считать параметр \(t\) «временем». Тогда \(A(\alpha (t))\) является положением собаки, а \(B(\beta (t))\) — положением владельца собаки по времени \(t\) (или наоборот). Длина поводка между ними в момент времени \(t\) равна расстоянию между \(A(\alpha (t))\) и \(B(\beta (t))\). Взятие инфимума по всем возможным репараметризациям отрезка \([0,1]\) соответствует выбору прогулки вдоль кривых, при которой максимальная длина поводка минимизируется. Ограничение, что \(\alpha\) и \(\beta\) не убывают, означает, что ни собака, ни её владелец не могут повернуть назад."
71
+ \[\mathbb {U} \to \mathbb {U} :w=R(u)\],Рациональная функция,Элементарная математика;Алгебра;Математичесикй анализ,"Множество таких функций замкнуто относительно арифметических действий и операции композиции, а также я��ляется полем в том случае, если коэффициенты многочленов принадлежат некоторому полю."
72
+ \[F(x)=\sum _{s=1}^{\infty }{\frac {f(sx)}{s^{n}}}\],Ряд Мёбиуса,Теория чисел,"Данное обращение является прямым следствием свойств свёртки Дирихле, в связи с тем, что функция является обращением Дирихле единичной функции, то есть \(1*\mu =\epsilon\), где \(*\) — свёртка Дирихле, а \(\epsilon\) — единица кольца Дирихле."
73
+ \[\{1\}=G_{0}\subseteq G_{1}\subseteq \cdots \subseteq G_{n}=G\],Ряд подгрупп,Теория групп;Алгебра,"Ряд с дополнительным свойством \(G_{i}\neq G_{i+1}\) для всех \(i\) называется рядом без повторов. Длина ряда — это число собственных включений \(G_{i}\varsubsetneq G_{i+1}\). Если ряд не имеет повторов, то его длина равна \(n\). Для субнормального ряда, его длина — это число нетривиальных факторгрупп ряда."
74
+ \[f(x)=\sum _{n=0}^{+\infty }{\frac {f^{(n)}(a)}{n!}}(x-a)^{n}=\sum _{n=0}^{+\infty }\varphi _{n}(x;a)\],Ряд Тейлора,Математический анализ;Дифференциальное исчисление,"Применяются при аппроксимации функции многочленами. В частности, линеаризация уравнений происходит путём разложения и отсечения всех членов выше первого порядка."
75
+ "\[{\overline {f({\overline {x}}_{1},\ldots ,{\overline {x}}_{n})}}=f(x_{1},\ldots ,x_{n})\]",Самодвойственная функция,Булева алгебра;Математическая логика;Теория дискретных функций,"Другими словами такая функция на противоположных друг другу наборах значений аргументов принимает противоположные значения. Примеры: \(x\), \({\overline {x}}\), \(x\oplus y\oplus z\), функция голосования, отрицание функции голосования. Таких функций с двумя существенными переменными нет."
76
+ \[\lambda (N)=0\quad \Rightarrow \quad \lambda (f(N))=0\],Свойство Лузина,Математический анализ;Теория меры,"Каждая абсолютно непрерывная функция обладает этим свойством. Канторова лестница не обладает данным свойством: мера Лебега Канторова множества равна нулю, однако его образ является всем интервалом [0,1]."
77
+ "\[0<\mu [B(x,2\cdot r)]\leq C\cdot \mu [B(x,r)]<\infty \]",Свойство удвоения,Топология;Метрическая геометрия;Геометрическая теория меры,"Для метрических пространств со свойством удвоения выполняется слабый вариант теоремы Киршбрауна. А именно, если \(X\) — метрическое пространство со свойством удвоения и \(A\subset X\) и \(V\) — банахово пространство, то любое \(L\)-Липшицево отображение \(A\to V\) продолжается до \(C\cdot L\)-Липшицева отображения \(X\to V\), где константа \(C\) зависит только от параметра в свойстве удвоения."
78
+ "\[\operatorname {sgn} x={\begin{cases}+1,&x>0\\0,&x=0\\-1,&x<0\end{cases}}\]",Сигнум,Элементарная математика,"Функция не является элементарной. Часто используется представление \(\operatorname {sgn} x={\frac {d}{dx}}|x|\). При этом производная модуля в нуле, которая, строго говоря, не определена, доопределяется средним арифметическим соответствующих производных слева и справа. Функция применяется в теории обработки сигналов, в математической статистике и других разделах математики, где требуется компактная запись для индикации знака числа."
79
+ \[\lim _{n\to \infty }P{\big (}|{\overline {X}}_{n}-\mu |>\varepsilon {\big )}=0\],Слабый закон больших чисел,Теория вероятностей,"Интерпретируя данный результат, получаем, что закон утверждает, что для любых ненулевых указанных границ, независимо от того, насколько они малы, при достаточно большой выборке вероятность того, что среднее значение выборки будет близко к математическому ожиданию, очень высока в пределах этих границ."
80
+ "\[(*)\qquad M(x_{1},\ldots ,x_{n})=\varphi ^{-1}\left({\frac {1}{n}}\sum _{k=1}^{n}\varphi (x_{k})\right)=\varphi ^{-1}\left({\frac {\varphi (x_{1})+\ldots +\varphi (x_{n})}{n}}\right)\]",Среднее Колмогорова,Математический анализ;Теория вероятностей,"Данную величину используют в прикладной статистике и эконометрике. В соответствии с теорией измерений, для усреднения данных, измеренных в шкале интервалов, из всех таких величин можно использовать только среднее арифметическое, а для усреднения данных, измеренных в шкале отношений, из всех таких величин можно использовать только степенные средние и среднее геометрическое."
81
+ \[\sigma ={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}}\],Среднеквадратическое отклонение,Теория вероятностей,В литературе обычно обозначают греческой буквой \(\sigma\) (сигма). В статистике принято два обозначения: \(\sigma\) — для генеральной совокупности и \(sd\) (с англ. standard deviation — стандартное отклонение) — для выборки.
82
+ \[P_{n}(m)=C_{n}^{m}p^{m}(1-p)^{n-m}\],Схема Бернулли,Теория вероятностей,"Для применения должны быть выполнены следующие условия: 1) каждое испытание имеет ровно два исхода, условно называемых успехом и неудачей; 2) независимость испытаний: результат очередного эксперимента не должен зависеть от результатов предыдущих экспериментов; 3) вероятность успеха должна быть постоянной (фиксированной) для всех испытаний."
83
+ "\[f(\mathbf {x} )=f(x_{1},\ldots ,x_{n})=\sum _{q=0}^{2n}\Phi _{q}\left(\sum _{p=1}^{n}\phi _{q,p}(x_{p})\right)\]",Теорема Колмогорова — Арнольда,Математический анализ,"Данная теорема тесно связана с 13-й проблемой Гильберта. В его парижской лекции на Международном конгрессе математиков в 1900 году Давид Гильберт сформулировал 23 проблемы, которые, по его мнению, были важны для дальнейшего развития математики. В 13-й из этих проблем задача состояла в решении общих уравнений высших степеней."
84
+ \[\lim _{x\to a}\varphi (x)=\lim _{x\to a}\psi (x)=A\Rightarrow \lim _{x\to a}f(x)=A\],Теорема о двух милиционерах,Математический анализ,"Из неравенства \(\varphi (x)\leqslant f(x)\leqslant \psi (x)\) получаем неравенство \(\varphi (x)-A\leqslant f(x)-A\leqslant \psi (x)-A\). Условие \(\lim \limits _{x\to a}\varphi (x)=A=\lim \limits _{x\to a}\psi (x)\) позволяет сказать, что для любого \(\varepsilon >0\) существует окрестность \(U_{a}\), в которой верны неравенства \(\left|\varphi (x)-A\right|<\varepsilon\) и \(\left|\psi (x)-A\right|<\varepsilon\). Из изложенных выше неравенств следует, что \(\left|f(x)-A\right|<\varepsilon\) при \(x\in U_{a}\), что удовлетворяет определению предела, то есть \(\lim \limits _{x\to a}f(x)=A\)."
85
+ "\[x(p,R)=-{\frac {\partial \nu (p,R)}{\partial p}}/{\frac {\partial \nu (p,R)}{\partial R}}\]",Тождество Руа,Микроэкономика;Теория потребления;Математическая экономика,"Тождество показывает разнонаправленность изменения цены и полезности набора благ, например, при росте цены товара растут расходы пот��ебителя и падает уровень полезности товарного набора, который может купить потребитель."
86
+ \[f(x)={\frac {a_{0}}{2}}+\sum _{n=1}^{\infty }(a_{n}\cos nx+b_{n}\sin nx)\],Тригонометрический ряд Фурье,Интегральное исчисление;Математический анализ;Гармонический анализ,"Ещё одно важное свойство состоит в том, что тригонометрическая система функций является базисом в пространстве \(L^{2}[0,2\pi ]\). Иными словами, если некоторая функция из этого пространства ортогональна всем функциям вида \(\cos(kx),\sin(kx),k\in \mathbb {Z}\), то она тождественно равна нулю (если точнее, то равна нулю почти всюду)."
87
+ \[{\frac {\partial f}{\partial t}}+{\frac {\partial f}{\partial \mathbf {x} }}\cdot {\frac {\mathbf {p} }{m}}+{\frac {\partial f}{\partial \mathbf {p} }}\cdot \mathbf {F} =\left.{\frac {\partial f}{\partial t}}\right|_{\mathrm {coll} }\],Уравнение Больцмана,Статистическая физика;Физика твёрдого тела;Теоретическая физика,Микроскопический вывод уравнения из первых принципов (исходя из точного уравнения Лиувилля для всех частиц среды) производится путём обрыва цепочки уравнений Боголюбова на уровне парной корреляционной функции для классических и квантовых систем. Учёт в цепочке кинетических уравнений корреляционных функций более высокого порядка позволяет находить поправки к данному уравнению.
88
+ "\[\beta \varphi (x)=\lambda \int _{0}^{\infty }K(x-s)\varphi (s)\,ds+f(x)\]",Уравнение Винера — Хопфа,Математическая физика;Кибернетика,"Для решения вводятся т. н. односторонние функции \(\varphi _{+}(x)\) и \(f_{+}(x)\), равные \(\varphi (x)\) и \(f(x)\) при x>0 и равные 0 при x<0 и функция \(\varphi _{-}(x)\), равная 0 при x>0. При помощи односторонних функций уравнение записывается в виде: \(\varphi _{+}(x)=\lambda \int _{-\infty }^{+\infty }K(x-s)\varphi _{+}(s)\,ds+f_{+}(x)+\varphi _{-}(x)\). Таким образом, при помощи односторонних функций область определения уравнения продолжается на отрицательную полуось."
89
+ \[\cos \omega _{\circ }=-\tan \phi \times \tan \delta \],Уравнение восхода,Астрономия,"Земля вращается с угловой скоростью в 15 градусов в час (относительно Солнца), поэтому результатом выражения \(\omega _{\circ }\times {\frac {\mathrm {hour} }{{15}^{\circ }}}\) является временной интервал между истинным полуднем и восходом (или закатом) Солнца. Допускается, что северная широта сопровождается положительным знаком, а южная отрицательным (\(\phi\)). Широта экватора равна нулю. Солнечное склонение \(\delta\) равно нулю в дни равноденствий, когда Солнце находится точно над экватором, положительно во время зимы в северном полушарии и отрицательно во время лета."
90
+ \[{\ce {pH}}=\mathrm {p} K_{\mathrm {a} }+\lg \left(\mathrm {\frac {[A^{-}]}{[HA]}} \right)\],Уравнение Гендерсона — Хассельбаха,Математика в медицине,"При гомеостазе рН биологического раствора поддерживается на постоянном уровне за счет регулирования положения равновесий: \(\mathrm {HCO_{3}^{-}} +\mathrm {H^{+}} \rightleftharpoons \mathrm {H_{2}CO_{3}} \rightleftharpoons CO_{2}+H_{2}O\), где \(\mathrm {HCO_{3}^{-}} \) – бикарбонат-ион, \(\mathrm {H_{2}CO_{3}} \) – угольная кислота. Однако растворимость угольной кислоты в воде может быть превышена. Когда это происходит, выделяется газообразный диоксид углерода, и вместо него можно использовать следующ��е уравнение: \(\mathrm {[H^{+}][HCO_{3}^{-}]} =\mathrm {K^{m}[CO_{2}(g)]} \), где \(\mathrm {CO_{2}(g)} \) – углекислый газ, выделяющийся в виде газа."
91
+ "\[{\frac {dx}{dt}}=f(t,\;x),\ x=(x_{1},\;\ldots ,\;x_{n})\in \mathbb {R} ^{n},\ n\geqslant 1,\quad (*)\]",Уравнение Каратеодори,Функциональный анализ,"Решением данного уравнения с начальным условием \(x(t_{0})=x_{0}\) называется измеримая вектор-функция \(x(t)\), удовлетворяющая интегральному уравнению \(x(t)=x_{0}+\int \limits _{t_{0}}^{t}f(\tau ,\;x(\tau ))\,d\tau .\quad (**)\). Интеграл в (**) понимается в смысле интеграла Лебега для каждой компоненты вектор-функции \(f\). Корректность определения основана на том, что композиция измеримой функции \(x(t)\) и удовлетворяющей условию Каратеодори функции \(f(t,\;x)\) является суммируемой функцией от переменной \(t\)."
92
+ \[{\frac {\partial u}{\partial t}}+6u{\frac {\partial u}{\partial x}}+{\frac {\partial ^{3}u}{\partial x^{3}}}=0\],Уравнение Кортевега — де Фриза,Теория волн,"Уравнение Кортевега — де Фриза имеет важное значение для теории интегрируемых систем как один из простейших примеров точно решаемого нелинейного дифференциального уравнения. Интегрируемость обеспечивается наличием у уравнения бесконечного количества интегралов движения, имеющих вид \(I_{n}=\int _{-\infty }^{+\infty }P_{2n-1}(u,\,\partial _{x}u,\,\partial _{x}^{2}u,\,\ldots )\,{\text{d}}x\\), где \(P_{n}\) — полиномы n-ой степени от неизвестной функции и её пространственных производных, заданные рекурсивно следующим образом: \({\begin{aligned}P_{1}&=u,\\P_{n}&=-{\frac {dP_{n-1}}{dx}}+\sum _{i=1}^{n-2}\,P_{i}\,P_{n-1-i},\quad n\geq 2.\end{aligned}}\)."
93
+ \[M\cdot V=P\cdot Q\],Уравнение обмена,Финансовая математика;Макроэкономика,"На основе данной формулы Ирвинг Фишер доказал, что скорость обращения денег в экономике определяют институты, от которых зависит то, как люди осуществляют сделки (транзакции). Если при оплате покупок люди пользуются расчётными счетами и кредитными картами, а значит, реже используют деньги при осуществлении транзакций, определяемых номинальным ВВП (\(M\downarrow\) относительно \(P\cdot Q\)), то скорость обращения будет увеличиваться. И наоборот, если покупки легче оплачивать наличными или чеками, то больший объём денег будет обслуживать тот же уровень номинального ВВП, и скорость обращения будет уменьшаться."
94
+ "\[i\hbar {\frac {\partial }{\partial t}}\Psi ={\hat {H}}(p,q)\Psi \]",Уравнение Шредингера,Квантовая механика,"Сформулировано в 1925 году, опубликовано в 1926 году. Данное уравнение не выводится, а постулируется методом аналогии с классической оптикой, на основе обобщения экспериментальных данных. Уравнение предназначено для частиц без спина, движущихся со скоростями, много меньшими скорости света. В случае быстрых частиц и частиц со спином используются его обобщения (уравнение Клейна — Гордона, уравнение Паули, уравнение Дирака и др.)."
95
+ "\[\int \limits _{V}{\frac {d\mathbf {v} }{dt}}\,dm=\int \limits _{V}\mathbf {g} \,dm-\oint \limits _{S}p\,d\mathbf {S} \]",Уравнение Эйлера,Гидродинамика,"Для случая стационарного одномерного потока жидкости или газа уравнение принимает вид \(v{\frac {dv}{dx}}=-{\frac {1}{\rho }}\cdot {\frac {dp}{dx}}\). В этой форме уравнение часто использует��я для решения различных прикладных задач гидродинамики и газодинамики. В частности, интегрированием этого уравнения по \(x\) при постоянной плотности жидкости \(\rho\) получается известное уравнение Бернулли для несжимаемой жидкости: \({\frac {\rho v^{2}}{2}}+p={\text{const}}\)."
96
+ \[{\begin{aligned}\left(v_{ph}^{2}\nabla ^{2}-{\frac {\partial ^{2}}{\partial t^{2}}}\right)\mathbf {E} &=\mathbf {0} \\\left(v_{ph}^{2}\nabla ^{2}-{\frac {\partial ^{2}}{\partial t^{2}}}\right)\mathbf {B} &=\mathbf {0} \end{aligned}}\],Уравнение электромагнитной волны,Электродинамика;Математическая физика,"Вывод Максвеллом данного уравнения был заменён в современном физическом образовании гораздо менее громоздким методом, включающим объединение исправленной версии закона циркуляции Ампера с законом индукции Фарадея. Чтобы получить данное уравнение в вакууме с использованием современного метода, мы начинаем с уравнений Максвелла в форме Хевисайда."
97
+ "\[n!={\begin{cases}1,&n=0\\n\cdot \left(n-1\right)!,&n\neq 0\end{cases}}\]",Факториал,Теория чисел;Комбинаторика,"Является чрезвычайно быстро растущей функцией. Он растёт быстрее, чем любая показательная функция или любая степенная функция, а также быстрее, чем любая сумма произведений этих функций. Однако степенно-показательная функция \(n^{n}\) растёт быстрее факториала, так же как и большинство двойных степенных, например \(e^{e^{n}}\)."
98
+ "\[P(A\mid B)={\frac {P(B\mid A)\,P(A)}{P(B)}}\]",Формула Байеса,Теория вероятностей;Байесовская статистика,"Данная формула позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной. При этом необходимо понимать, для применения теоремы причинно-следственная связь между \(A\) и \(B\) не является обязательной."
99
+ \[w(x)=\sum _{n=0}^{\infty }b^{n}\cos(a^{n}\pi x)\],Функция Вейерштрасса,Математический анализ,"Этот функциональный ряд мажорируется сходящимся числовым рядом \(\sum _{n=0}^{\infty }b^{n}\), поэтому функция \(w\) определена и непрерывна при всех вещественных \(x\). Тем не менее, эта функция не имеет производной по крайней мере при \(ab>{\tfrac {3}{2}}\pi +1\)."
100
+ \[S(t)=\mathbb {P} (T>t)\],Функция выживания,Математика в медицине;Эконометрика,"Обычно предполагается, что \(S(0)=1\), хотя это значение может быть и меньше, чем 1, если есть возможность немедленной смерти или неудачи. Если \(u\geq t\), то функция выживания должна иметь вид \(S(u)\leq S(t)\). Это свойство вытекает из того, что условие \(T>u\) подразумевает, что \(T>t\). По сути, здесь подразумевается, что выживание для более позднего периода возможно только после выживания в ходе более раннего периода. Обычно предполагается, что функция выживания стремится к нулю при бесконечном возрастании переменной времени: \(S(t)\rightarrow 0\) при \(t\to \infty\)."
101
+ "\[D(x)={\begin{cases}1,&x\in \mathbb {Q} \\0,&x\not \in \mathbb {Q} \end{cases}}\]",Функция Дирихле,Математический анализ;Специальные функции,"Каждая точка в области определения является точкой разрыва второго рода (причём существенного). Является периодической функцией, её периодом является любое рациональное число, не равное нулю; основного периода функция не имеет. Не является интегрируемой в смысле Римана. Простая функция; измерима по отношению к мере Лебега."
102
+ "\[L(x,\;\lambda )=f(x)+\sum _{i=1}^{m}\lambda _{i}\varphi _{i}(x)\]",Функция Лагранжа,Математический анализ;Дифференциальное исчислени;Алгоритмы оптимизации;Математические методы в экономике,"Метод применяется при решении задач нелинейного программирования, возникающих во многих областях (например, в экономике). Основной метод решения задачи об оптимизации качества кодирования аудио и видео информации при заданном среднем битрейте. Метод применяется в статистической физике при выводе распределения Распределение Гиббса."
103
+ \[f\colon {\mathcal {S}}\to E\],Функция множеств,Функциональный анализ,"В функциональном анализе обычно изучаются такие функции, принимающие значения на числовой оси \(R}\), либо в произвольном метрическом пространстве. Мера (как функция, ставящая в соответствие множеству вещественную величину) является такой функцией."
104
+ "\[\operatorname {erf} \,x={\frac {2}{\sqrt {\pi }}}\int \limits _{0}^{x}e^{-t^{2}}\,\mathrm {d} t\]",Функция ошибок Гаусса,Теория вероятностей;Математическая статистика;Математическая физика,"Если набор случайных величин подчиняется нормальному распределению со стандартным отклонением \(\sigma\), то вероятность, что величина отклонится от среднего не более чем на \(a\), равна \(\operatorname {erf} \,{\frac {a}{\sigma {\sqrt {2}}}}\). Встречаются в решении некоторых дифференциальных уравнений, например, уравнения теплопроводности с начальными условиями, описываемыми функцией Хевисайда («ступенькой»)."
105
+ "\[\lambda (t)\,\mathrm {d} t=\lim \limits _{\Delta t\rightarrow 0}{\frac {\mathbb {P} (t<T\leq t+\Delta t\mid T>t)}{\Delta t}}\]",Функция риска (интенсивности отказов),Математическая статистика;Теория надежности,"Определяется как вероятность того, что элемент, оставшийся в совокупности к началу соответствующего интервала, покинет совокупность («умрёт») в течение этого интервала. Числитель данного выражения — условная вероятность того, что событие произойдёт в интервале \((t;t+\Delta t)\), если оно не произошло ранее, а знаменатель — ширина интервала."
106
+ \[w(z):=e^{-z^{2}}\operatorname {erfc} (-iz)=\operatorname {erfcx} (-iz)=e^{-z^{2}}\left(1+{\frac {2i}{\sqrt {\pi }}}\int _{0}^{z}e^{t^{2}}{\text{d}}t\right)\],Функция Фаддеевой,Математическая физика;Специальные функции,"Данная функция связана с функцией Доусона, профилем Фойгта, интегралом Френеля и появляется в различных физических задачах при описании электромагнитных взаимодействий в средах."
107
+ \[\lfloor x\rfloor =\max \left\{q\in \mathbb {Z} \mid q\leqslant x\right\}\],Целая часть числа,Теория чисел;Элементарная математика,"Впервые квадратные скобки (\([x]\)) для обозначения использовал Гаусс в 1808 году в своём доказательстве закона квадратичной взаимности. Это обозначение считалось стандартным, пока Кеннет Айверсон в своей книге «A Programming Language», опубликованной в 1962 году, не предложил округление числа \(x\) до ближайшего целого в меньшую и большую стороны называть «пол» и «потолок» \(x\) и обозна��ать \(\lfloor x\rfloor \) и \(\lceil x\rceil\) соответственно."
108
+ "\[PoS={\frac {N}{S}},\ PoS\geqslant 0\]",Цена стабильности,Теория игр,"Первыми изучили А. Шульцан и Н. Мозес, а сам термин появился в работах Е. Аншелевича. Они показали, что равновесие Нэша всегда существует в чистых стратегиях. Для неориентированных графов Аншелевич и другие представили определили жёсткую границу в 4/3 для случая одного источника и двух игроков."
109
+ "\[{\frac {S_{n}-\mu n}{\sigma {\sqrt {n}}}}\to N(0,1)\]",Центральная предельная теорема,Теория вероятностей,"Так как многие случайные величины в приложениях формируются под влиянием нескольких слабо зависимых случайных факторов, их распределение считают нормальным. При этом должно соблюдаться условие, что ни один из факторов не является доминирующим."
110
+ \[\ker(L)=\left\{\mathbf {v} \in V\mid L(\mathbf {v} )=\mathbf {0} \right\}\],Ядро линейного отображения,Функциональный анализ;Линейная алгебра,"Понятие также имеет смысл для гомоморфизмов модулей, которые являются обобщениями векторных пространств, где скаляры — элементы кольца, а не поля. Область определения — это модуль с ядром, образующий подмодуль. Здесь концепции ранга и размерности ядра не имеют значения."
111
+ "\[z={\frac {{\overline {X}}-\,m}{\mathrm {SE} }}\]",Z-статистика,Математическая статистика,Обычно применяется для проверки равенства средних значений при известной дисперсии генеральной совокупности или при оценке выборочного среднего стандартизованных значений.
model/config.json ADDED
@@ -0,0 +1,24 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForPreTraining"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.1,
9
+ "hidden_size": 768,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 3072,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 512,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 12,
16
+ "num_hidden_layers": 12,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "torch_dtype": "float32",
20
+ "transformers_version": "4.48.1",
21
+ "type_vocab_size": 2,
22
+ "use_cache": true,
23
+ "vocab_size": 30000
24
+ }
model/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a8ed8a4d1d0f3dd04c4bf3183eafb8470791e43fb4a5786bc79f9ec8982ef35b
3
+ size 438844120
model/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cc8340fa60a6782926800d7dc7d04da43904df43ab9546768c19a338aefdeb2c
3
+ size 877812346
model/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1b0e5f5980a63151d85c020409b7d2cf71e842db64e61ea3ac49b8cfcbd5170f
3
+ size 14244
model/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d6336e8c002c152f733edb8c8875e8a36917dc0c0625a3844680a4704fc8fc92
3
+ size 1064
model/trainer_state.json ADDED
@@ -0,0 +1,2714 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 5.0,
5
+ "eval_steps": 500,
6
+ "global_step": 191805,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.013034071061755428,
13
+ "grad_norm": 2.9903717041015625,
14
+ "learning_rate": 4.9869659289382446e-05,
15
+ "loss": 6.0967,
16
+ "step": 500
17
+ },
18
+ {
19
+ "epoch": 0.026068142123510857,
20
+ "grad_norm": 4.055346965789795,
21
+ "learning_rate": 4.973931857876489e-05,
22
+ "loss": 5.5622,
23
+ "step": 1000
24
+ },
25
+ {
26
+ "epoch": 0.039102213185266285,
27
+ "grad_norm": 5.480607032775879,
28
+ "learning_rate": 4.960897786814734e-05,
29
+ "loss": 5.4371,
30
+ "step": 1500
31
+ },
32
+ {
33
+ "epoch": 0.052136284247021714,
34
+ "grad_norm": 4.727134704589844,
35
+ "learning_rate": 4.9478637157529784e-05,
36
+ "loss": 5.3535,
37
+ "step": 2000
38
+ },
39
+ {
40
+ "epoch": 0.06517035530877714,
41
+ "grad_norm": 4.737260341644287,
42
+ "learning_rate": 4.934829644691223e-05,
43
+ "loss": 5.2508,
44
+ "step": 2500
45
+ },
46
+ {
47
+ "epoch": 0.07820442637053257,
48
+ "grad_norm": 5.066771984100342,
49
+ "learning_rate": 4.921795573629467e-05,
50
+ "loss": 5.199,
51
+ "step": 3000
52
+ },
53
+ {
54
+ "epoch": 0.091238497432288,
55
+ "grad_norm": 3.627026319503784,
56
+ "learning_rate": 4.908761502567713e-05,
57
+ "loss": 5.084,
58
+ "step": 3500
59
+ },
60
+ {
61
+ "epoch": 0.10427256849404343,
62
+ "grad_norm": 4.254016876220703,
63
+ "learning_rate": 4.895727431505957e-05,
64
+ "loss": 4.9441,
65
+ "step": 4000
66
+ },
67
+ {
68
+ "epoch": 0.11730663955579886,
69
+ "grad_norm": 6.351306438446045,
70
+ "learning_rate": 4.8826933604442015e-05,
71
+ "loss": 4.8021,
72
+ "step": 4500
73
+ },
74
+ {
75
+ "epoch": 0.13034071061755428,
76
+ "grad_norm": 7.492619037628174,
77
+ "learning_rate": 4.869659289382446e-05,
78
+ "loss": 4.6446,
79
+ "step": 5000
80
+ },
81
+ {
82
+ "epoch": 0.14337478167930973,
83
+ "grad_norm": 6.017455577850342,
84
+ "learning_rate": 4.856625218320691e-05,
85
+ "loss": 4.4574,
86
+ "step": 5500
87
+ },
88
+ {
89
+ "epoch": 0.15640885274106514,
90
+ "grad_norm": 5.2971343994140625,
91
+ "learning_rate": 4.843591147258935e-05,
92
+ "loss": 4.2184,
93
+ "step": 6000
94
+ },
95
+ {
96
+ "epoch": 0.16944292380282058,
97
+ "grad_norm": 9.367820739746094,
98
+ "learning_rate": 4.8305570761971796e-05,
99
+ "loss": 4.101,
100
+ "step": 6500
101
+ },
102
+ {
103
+ "epoch": 0.182476994864576,
104
+ "grad_norm": 7.676972389221191,
105
+ "learning_rate": 4.817523005135424e-05,
106
+ "loss": 3.9548,
107
+ "step": 7000
108
+ },
109
+ {
110
+ "epoch": 0.19551106592633144,
111
+ "grad_norm": 6.3607563972473145,
112
+ "learning_rate": 4.804488934073669e-05,
113
+ "loss": 3.8584,
114
+ "step": 7500
115
+ },
116
+ {
117
+ "epoch": 0.20854513698808685,
118
+ "grad_norm": 5.45451021194458,
119
+ "learning_rate": 4.7914548630119134e-05,
120
+ "loss": 3.7841,
121
+ "step": 8000
122
+ },
123
+ {
124
+ "epoch": 0.2215792080498423,
125
+ "grad_norm": 16.199485778808594,
126
+ "learning_rate": 4.778420791950158e-05,
127
+ "loss": 3.6685,
128
+ "step": 8500
129
+ },
130
+ {
131
+ "epoch": 0.2346132791115977,
132
+ "grad_norm": 6.077032089233398,
133
+ "learning_rate": 4.765386720888402e-05,
134
+ "loss": 3.6017,
135
+ "step": 9000
136
+ },
137
+ {
138
+ "epoch": 0.24764735017335315,
139
+ "grad_norm": 11.489569664001465,
140
+ "learning_rate": 4.752352649826647e-05,
141
+ "loss": 3.5553,
142
+ "step": 9500
143
+ },
144
+ {
145
+ "epoch": 0.26068142123510857,
146
+ "grad_norm": 4.917782783508301,
147
+ "learning_rate": 4.7393185787648915e-05,
148
+ "loss": 3.4537,
149
+ "step": 10000
150
+ },
151
+ {
152
+ "epoch": 0.273715492296864,
153
+ "grad_norm": 5.945028781890869,
154
+ "learning_rate": 4.7262845077031366e-05,
155
+ "loss": 3.4442,
156
+ "step": 10500
157
+ },
158
+ {
159
+ "epoch": 0.28674956335861945,
160
+ "grad_norm": 7.648957252502441,
161
+ "learning_rate": 4.713250436641381e-05,
162
+ "loss": 3.3772,
163
+ "step": 11000
164
+ },
165
+ {
166
+ "epoch": 0.29978363442037487,
167
+ "grad_norm": 7.488467216491699,
168
+ "learning_rate": 4.700216365579625e-05,
169
+ "loss": 3.3026,
170
+ "step": 11500
171
+ },
172
+ {
173
+ "epoch": 0.3128177054821303,
174
+ "grad_norm": 5.8792619705200195,
175
+ "learning_rate": 4.68718229451787e-05,
176
+ "loss": 3.2446,
177
+ "step": 12000
178
+ },
179
+ {
180
+ "epoch": 0.3258517765438857,
181
+ "grad_norm": 10.038032531738281,
182
+ "learning_rate": 4.674148223456115e-05,
183
+ "loss": 3.216,
184
+ "step": 12500
185
+ },
186
+ {
187
+ "epoch": 0.33888584760564117,
188
+ "grad_norm": 7.69769811630249,
189
+ "learning_rate": 4.661114152394359e-05,
190
+ "loss": 3.1869,
191
+ "step": 13000
192
+ },
193
+ {
194
+ "epoch": 0.3519199186673966,
195
+ "grad_norm": 6.179595470428467,
196
+ "learning_rate": 4.6480800813326034e-05,
197
+ "loss": 3.1464,
198
+ "step": 13500
199
+ },
200
+ {
201
+ "epoch": 0.364953989729152,
202
+ "grad_norm": 5.665715217590332,
203
+ "learning_rate": 4.6350460102708484e-05,
204
+ "loss": 3.079,
205
+ "step": 14000
206
+ },
207
+ {
208
+ "epoch": 0.3779880607909074,
209
+ "grad_norm": 4.681985855102539,
210
+ "learning_rate": 4.622011939209093e-05,
211
+ "loss": 3.0724,
212
+ "step": 14500
213
+ },
214
+ {
215
+ "epoch": 0.3910221318526629,
216
+ "grad_norm": 11.111820220947266,
217
+ "learning_rate": 4.608977868147337e-05,
218
+ "loss": 3.0356,
219
+ "step": 15000
220
+ },
221
+ {
222
+ "epoch": 0.4040562029144183,
223
+ "grad_norm": 5.951188564300537,
224
+ "learning_rate": 4.5959437970855815e-05,
225
+ "loss": 3.01,
226
+ "step": 15500
227
+ },
228
+ {
229
+ "epoch": 0.4170902739761737,
230
+ "grad_norm": 5.438151836395264,
231
+ "learning_rate": 4.5829097260238266e-05,
232
+ "loss": 2.9605,
233
+ "step": 16000
234
+ },
235
+ {
236
+ "epoch": 0.4301243450379291,
237
+ "grad_norm": 10.49527645111084,
238
+ "learning_rate": 4.569875654962071e-05,
239
+ "loss": 2.9453,
240
+ "step": 16500
241
+ },
242
+ {
243
+ "epoch": 0.4431584160996846,
244
+ "grad_norm": 6.611765384674072,
245
+ "learning_rate": 4.556841583900316e-05,
246
+ "loss": 2.9529,
247
+ "step": 17000
248
+ },
249
+ {
250
+ "epoch": 0.45619248716144,
251
+ "grad_norm": 5.289289474487305,
252
+ "learning_rate": 4.54380751283856e-05,
253
+ "loss": 2.9081,
254
+ "step": 17500
255
+ },
256
+ {
257
+ "epoch": 0.4692265582231954,
258
+ "grad_norm": 5.65715217590332,
259
+ "learning_rate": 4.530773441776805e-05,
260
+ "loss": 2.8152,
261
+ "step": 18000
262
+ },
263
+ {
264
+ "epoch": 0.48226062928495084,
265
+ "grad_norm": 5.513209819793701,
266
+ "learning_rate": 4.51773937071505e-05,
267
+ "loss": 2.8664,
268
+ "step": 18500
269
+ },
270
+ {
271
+ "epoch": 0.4952947003467063,
272
+ "grad_norm": 4.413240909576416,
273
+ "learning_rate": 4.504705299653294e-05,
274
+ "loss": 2.8854,
275
+ "step": 19000
276
+ },
277
+ {
278
+ "epoch": 0.5083287714084617,
279
+ "grad_norm": 5.602241039276123,
280
+ "learning_rate": 4.4916712285915384e-05,
281
+ "loss": 2.8295,
282
+ "step": 19500
283
+ },
284
+ {
285
+ "epoch": 0.5213628424702171,
286
+ "grad_norm": 8.221460342407227,
287
+ "learning_rate": 4.478637157529783e-05,
288
+ "loss": 2.7826,
289
+ "step": 20000
290
+ },
291
+ {
292
+ "epoch": 0.5343969135319726,
293
+ "grad_norm": 5.350883483886719,
294
+ "learning_rate": 4.465603086468028e-05,
295
+ "loss": 2.7846,
296
+ "step": 20500
297
+ },
298
+ {
299
+ "epoch": 0.547430984593728,
300
+ "grad_norm": 6.6059393882751465,
301
+ "learning_rate": 4.452569015406272e-05,
302
+ "loss": 2.7562,
303
+ "step": 21000
304
+ },
305
+ {
306
+ "epoch": 0.5604650556554834,
307
+ "grad_norm": 7.050083637237549,
308
+ "learning_rate": 4.4395349443445166e-05,
309
+ "loss": 2.7102,
310
+ "step": 21500
311
+ },
312
+ {
313
+ "epoch": 0.5734991267172389,
314
+ "grad_norm": 6.74811315536499,
315
+ "learning_rate": 4.426500873282761e-05,
316
+ "loss": 2.7215,
317
+ "step": 22000
318
+ },
319
+ {
320
+ "epoch": 0.5865331977789943,
321
+ "grad_norm": 7.959073543548584,
322
+ "learning_rate": 4.413466802221006e-05,
323
+ "loss": 2.7185,
324
+ "step": 22500
325
+ },
326
+ {
327
+ "epoch": 0.5995672688407497,
328
+ "grad_norm": 7.594911098480225,
329
+ "learning_rate": 4.40043273115925e-05,
330
+ "loss": 2.6624,
331
+ "step": 23000
332
+ },
333
+ {
334
+ "epoch": 0.6126013399025051,
335
+ "grad_norm": 5.935075283050537,
336
+ "learning_rate": 4.3873986600974954e-05,
337
+ "loss": 2.6398,
338
+ "step": 23500
339
+ },
340
+ {
341
+ "epoch": 0.6256354109642606,
342
+ "grad_norm": 7.0315961837768555,
343
+ "learning_rate": 4.37436458903574e-05,
344
+ "loss": 2.6571,
345
+ "step": 24000
346
+ },
347
+ {
348
+ "epoch": 0.638669482026016,
349
+ "grad_norm": 6.930845260620117,
350
+ "learning_rate": 4.361330517973984e-05,
351
+ "loss": 2.6009,
352
+ "step": 24500
353
+ },
354
+ {
355
+ "epoch": 0.6517035530877714,
356
+ "grad_norm": 14.607309341430664,
357
+ "learning_rate": 4.348296446912229e-05,
358
+ "loss": 2.6493,
359
+ "step": 25000
360
+ },
361
+ {
362
+ "epoch": 0.6647376241495269,
363
+ "grad_norm": 5.613809108734131,
364
+ "learning_rate": 4.3352623758504735e-05,
365
+ "loss": 2.6042,
366
+ "step": 25500
367
+ },
368
+ {
369
+ "epoch": 0.6777716952112823,
370
+ "grad_norm": 6.0553693771362305,
371
+ "learning_rate": 4.322228304788718e-05,
372
+ "loss": 2.6153,
373
+ "step": 26000
374
+ },
375
+ {
376
+ "epoch": 0.6908057662730377,
377
+ "grad_norm": 8.716107368469238,
378
+ "learning_rate": 4.309194233726962e-05,
379
+ "loss": 2.5757,
380
+ "step": 26500
381
+ },
382
+ {
383
+ "epoch": 0.7038398373347932,
384
+ "grad_norm": 7.430722713470459,
385
+ "learning_rate": 4.296160162665207e-05,
386
+ "loss": 2.5682,
387
+ "step": 27000
388
+ },
389
+ {
390
+ "epoch": 0.7168739083965486,
391
+ "grad_norm": 9.687034606933594,
392
+ "learning_rate": 4.2831260916034516e-05,
393
+ "loss": 2.5377,
394
+ "step": 27500
395
+ },
396
+ {
397
+ "epoch": 0.729907979458304,
398
+ "grad_norm": 3.729767084121704,
399
+ "learning_rate": 4.270092020541696e-05,
400
+ "loss": 2.5217,
401
+ "step": 28000
402
+ },
403
+ {
404
+ "epoch": 0.7429420505200595,
405
+ "grad_norm": 9.692636489868164,
406
+ "learning_rate": 4.25705794947994e-05,
407
+ "loss": 2.4829,
408
+ "step": 28500
409
+ },
410
+ {
411
+ "epoch": 0.7559761215818148,
412
+ "grad_norm": 8.260266304016113,
413
+ "learning_rate": 4.2440238784181854e-05,
414
+ "loss": 2.4971,
415
+ "step": 29000
416
+ },
417
+ {
418
+ "epoch": 0.7690101926435703,
419
+ "grad_norm": 5.885035037994385,
420
+ "learning_rate": 4.23098980735643e-05,
421
+ "loss": 2.4823,
422
+ "step": 29500
423
+ },
424
+ {
425
+ "epoch": 0.7820442637053258,
426
+ "grad_norm": 11.001029968261719,
427
+ "learning_rate": 4.217955736294674e-05,
428
+ "loss": 2.4583,
429
+ "step": 30000
430
+ },
431
+ {
432
+ "epoch": 0.7950783347670811,
433
+ "grad_norm": 9.69256591796875,
434
+ "learning_rate": 4.204921665232919e-05,
435
+ "loss": 2.447,
436
+ "step": 30500
437
+ },
438
+ {
439
+ "epoch": 0.8081124058288366,
440
+ "grad_norm": 15.954379081726074,
441
+ "learning_rate": 4.191887594171164e-05,
442
+ "loss": 2.4427,
443
+ "step": 31000
444
+ },
445
+ {
446
+ "epoch": 0.8211464768905921,
447
+ "grad_norm": 5.421440124511719,
448
+ "learning_rate": 4.1788535231094085e-05,
449
+ "loss": 2.4181,
450
+ "step": 31500
451
+ },
452
+ {
453
+ "epoch": 0.8341805479523474,
454
+ "grad_norm": 9.169551849365234,
455
+ "learning_rate": 4.165819452047653e-05,
456
+ "loss": 2.4105,
457
+ "step": 32000
458
+ },
459
+ {
460
+ "epoch": 0.8472146190141029,
461
+ "grad_norm": 5.778009414672852,
462
+ "learning_rate": 4.152785380985897e-05,
463
+ "loss": 2.4145,
464
+ "step": 32500
465
+ },
466
+ {
467
+ "epoch": 0.8602486900758582,
468
+ "grad_norm": 6.441959857940674,
469
+ "learning_rate": 4.139751309924142e-05,
470
+ "loss": 2.4334,
471
+ "step": 33000
472
+ },
473
+ {
474
+ "epoch": 0.8732827611376137,
475
+ "grad_norm": 7.385718822479248,
476
+ "learning_rate": 4.1267172388623866e-05,
477
+ "loss": 2.392,
478
+ "step": 33500
479
+ },
480
+ {
481
+ "epoch": 0.8863168321993692,
482
+ "grad_norm": 15.347734451293945,
483
+ "learning_rate": 4.113683167800631e-05,
484
+ "loss": 2.3981,
485
+ "step": 34000
486
+ },
487
+ {
488
+ "epoch": 0.8993509032611245,
489
+ "grad_norm": 10.47854232788086,
490
+ "learning_rate": 4.1006490967388754e-05,
491
+ "loss": 2.3511,
492
+ "step": 34500
493
+ },
494
+ {
495
+ "epoch": 0.91238497432288,
496
+ "grad_norm": 11.82073974609375,
497
+ "learning_rate": 4.0876150256771204e-05,
498
+ "loss": 2.3632,
499
+ "step": 35000
500
+ },
501
+ {
502
+ "epoch": 0.9254190453846355,
503
+ "grad_norm": 8.932971954345703,
504
+ "learning_rate": 4.074580954615365e-05,
505
+ "loss": 2.3272,
506
+ "step": 35500
507
+ },
508
+ {
509
+ "epoch": 0.9384531164463908,
510
+ "grad_norm": 11.068861961364746,
511
+ "learning_rate": 4.061546883553609e-05,
512
+ "loss": 2.3321,
513
+ "step": 36000
514
+ },
515
+ {
516
+ "epoch": 0.9514871875081463,
517
+ "grad_norm": 5.649448871612549,
518
+ "learning_rate": 4.0485128124918535e-05,
519
+ "loss": 2.3498,
520
+ "step": 36500
521
+ },
522
+ {
523
+ "epoch": 0.9645212585699017,
524
+ "grad_norm": 9.020928382873535,
525
+ "learning_rate": 4.0354787414300985e-05,
526
+ "loss": 2.3331,
527
+ "step": 37000
528
+ },
529
+ {
530
+ "epoch": 0.9775553296316571,
531
+ "grad_norm": 12.966954231262207,
532
+ "learning_rate": 4.0224446703683436e-05,
533
+ "loss": 2.3095,
534
+ "step": 37500
535
+ },
536
+ {
537
+ "epoch": 0.9905894006934126,
538
+ "grad_norm": 5.641653060913086,
539
+ "learning_rate": 4.009410599306588e-05,
540
+ "loss": 2.3127,
541
+ "step": 38000
542
+ },
543
+ {
544
+ "epoch": 1.003623471755168,
545
+ "grad_norm": 8.139008522033691,
546
+ "learning_rate": 3.996376528244832e-05,
547
+ "loss": 2.2846,
548
+ "step": 38500
549
+ },
550
+ {
551
+ "epoch": 1.0166575428169233,
552
+ "grad_norm": 7.005831241607666,
553
+ "learning_rate": 3.9833424571830766e-05,
554
+ "loss": 2.2518,
555
+ "step": 39000
556
+ },
557
+ {
558
+ "epoch": 1.029691613878679,
559
+ "grad_norm": 3.906301975250244,
560
+ "learning_rate": 3.970308386121322e-05,
561
+ "loss": 2.2632,
562
+ "step": 39500
563
+ },
564
+ {
565
+ "epoch": 1.0427256849404343,
566
+ "grad_norm": 4.201974391937256,
567
+ "learning_rate": 3.957274315059566e-05,
568
+ "loss": 2.2299,
569
+ "step": 40000
570
+ },
571
+ {
572
+ "epoch": 1.0557597560021896,
573
+ "grad_norm": 6.107882022857666,
574
+ "learning_rate": 3.9442402439978104e-05,
575
+ "loss": 2.2016,
576
+ "step": 40500
577
+ },
578
+ {
579
+ "epoch": 1.0687938270639452,
580
+ "grad_norm": 8.289084434509277,
581
+ "learning_rate": 3.931206172936055e-05,
582
+ "loss": 2.2227,
583
+ "step": 41000
584
+ },
585
+ {
586
+ "epoch": 1.0818278981257006,
587
+ "grad_norm": 5.386382102966309,
588
+ "learning_rate": 3.9181721018743e-05,
589
+ "loss": 2.1849,
590
+ "step": 41500
591
+ },
592
+ {
593
+ "epoch": 1.094861969187456,
594
+ "grad_norm": 5.536214828491211,
595
+ "learning_rate": 3.905138030812544e-05,
596
+ "loss": 2.2085,
597
+ "step": 42000
598
+ },
599
+ {
600
+ "epoch": 1.1078960402492115,
601
+ "grad_norm": 67.06414031982422,
602
+ "learning_rate": 3.8921039597507885e-05,
603
+ "loss": 2.2039,
604
+ "step": 42500
605
+ },
606
+ {
607
+ "epoch": 1.1209301113109669,
608
+ "grad_norm": 8.36019229888916,
609
+ "learning_rate": 3.879069888689033e-05,
610
+ "loss": 2.1925,
611
+ "step": 43000
612
+ },
613
+ {
614
+ "epoch": 1.1339641823727222,
615
+ "grad_norm": 14.266386985778809,
616
+ "learning_rate": 3.866035817627278e-05,
617
+ "loss": 2.2101,
618
+ "step": 43500
619
+ },
620
+ {
621
+ "epoch": 1.1469982534344778,
622
+ "grad_norm": 11.47070598602295,
623
+ "learning_rate": 3.853001746565523e-05,
624
+ "loss": 2.1402,
625
+ "step": 44000
626
+ },
627
+ {
628
+ "epoch": 1.1600323244962332,
629
+ "grad_norm": 5.293683052062988,
630
+ "learning_rate": 3.839967675503767e-05,
631
+ "loss": 2.1872,
632
+ "step": 44500
633
+ },
634
+ {
635
+ "epoch": 1.1730663955579885,
636
+ "grad_norm": 32.234737396240234,
637
+ "learning_rate": 3.826933604442012e-05,
638
+ "loss": 2.1357,
639
+ "step": 45000
640
+ },
641
+ {
642
+ "epoch": 1.1861004666197439,
643
+ "grad_norm": 3.9005160331726074,
644
+ "learning_rate": 3.813899533380256e-05,
645
+ "loss": 2.1263,
646
+ "step": 45500
647
+ },
648
+ {
649
+ "epoch": 1.1991345376814995,
650
+ "grad_norm": 9.012932777404785,
651
+ "learning_rate": 3.800865462318501e-05,
652
+ "loss": 2.1718,
653
+ "step": 46000
654
+ },
655
+ {
656
+ "epoch": 1.2121686087432548,
657
+ "grad_norm": 8.86204719543457,
658
+ "learning_rate": 3.7878313912567454e-05,
659
+ "loss": 2.1718,
660
+ "step": 46500
661
+ },
662
+ {
663
+ "epoch": 1.2252026798050104,
664
+ "grad_norm": 29.908674240112305,
665
+ "learning_rate": 3.77479732019499e-05,
666
+ "loss": 2.1227,
667
+ "step": 47000
668
+ },
669
+ {
670
+ "epoch": 1.2382367508667658,
671
+ "grad_norm": 3.599839687347412,
672
+ "learning_rate": 3.761763249133234e-05,
673
+ "loss": 2.1301,
674
+ "step": 47500
675
+ },
676
+ {
677
+ "epoch": 1.2512708219285211,
678
+ "grad_norm": 12.039328575134277,
679
+ "learning_rate": 3.748729178071479e-05,
680
+ "loss": 2.1226,
681
+ "step": 48000
682
+ },
683
+ {
684
+ "epoch": 1.2643048929902765,
685
+ "grad_norm": 3.92248797416687,
686
+ "learning_rate": 3.7356951070097236e-05,
687
+ "loss": 2.156,
688
+ "step": 48500
689
+ },
690
+ {
691
+ "epoch": 1.277338964052032,
692
+ "grad_norm": 22.514301300048828,
693
+ "learning_rate": 3.722661035947968e-05,
694
+ "loss": 2.1001,
695
+ "step": 49000
696
+ },
697
+ {
698
+ "epoch": 1.2903730351137874,
699
+ "grad_norm": 4.8082990646362305,
700
+ "learning_rate": 3.709626964886212e-05,
701
+ "loss": 2.1167,
702
+ "step": 49500
703
+ },
704
+ {
705
+ "epoch": 1.303407106175543,
706
+ "grad_norm": 7.884994983673096,
707
+ "learning_rate": 3.696592893824457e-05,
708
+ "loss": 2.1118,
709
+ "step": 50000
710
+ },
711
+ {
712
+ "epoch": 1.3164411772372984,
713
+ "grad_norm": 4.282125949859619,
714
+ "learning_rate": 3.6835588227627024e-05,
715
+ "loss": 2.0749,
716
+ "step": 50500
717
+ },
718
+ {
719
+ "epoch": 1.3294752482990537,
720
+ "grad_norm": 19.30133819580078,
721
+ "learning_rate": 3.670524751700947e-05,
722
+ "loss": 2.1081,
723
+ "step": 51000
724
+ },
725
+ {
726
+ "epoch": 1.342509319360809,
727
+ "grad_norm": 3.800236463546753,
728
+ "learning_rate": 3.657490680639191e-05,
729
+ "loss": 2.0964,
730
+ "step": 51500
731
+ },
732
+ {
733
+ "epoch": 1.3555433904225647,
734
+ "grad_norm": 5.734689235687256,
735
+ "learning_rate": 3.6444566095774355e-05,
736
+ "loss": 2.0736,
737
+ "step": 52000
738
+ },
739
+ {
740
+ "epoch": 1.36857746148432,
741
+ "grad_norm": 7.496071815490723,
742
+ "learning_rate": 3.6314225385156805e-05,
743
+ "loss": 2.0545,
744
+ "step": 52500
745
+ },
746
+ {
747
+ "epoch": 1.3816115325460754,
748
+ "grad_norm": 7.645195007324219,
749
+ "learning_rate": 3.618388467453925e-05,
750
+ "loss": 2.0407,
751
+ "step": 53000
752
+ },
753
+ {
754
+ "epoch": 1.394645603607831,
755
+ "grad_norm": 22.738969802856445,
756
+ "learning_rate": 3.605354396392169e-05,
757
+ "loss": 2.0554,
758
+ "step": 53500
759
+ },
760
+ {
761
+ "epoch": 1.4076796746695863,
762
+ "grad_norm": 9.185379028320312,
763
+ "learning_rate": 3.5923203253304136e-05,
764
+ "loss": 2.0364,
765
+ "step": 54000
766
+ },
767
+ {
768
+ "epoch": 1.4207137457313417,
769
+ "grad_norm": 9.092364311218262,
770
+ "learning_rate": 3.5792862542686586e-05,
771
+ "loss": 2.023,
772
+ "step": 54500
773
+ },
774
+ {
775
+ "epoch": 1.433747816793097,
776
+ "grad_norm": 3.8213064670562744,
777
+ "learning_rate": 3.566252183206903e-05,
778
+ "loss": 2.0429,
779
+ "step": 55000
780
+ },
781
+ {
782
+ "epoch": 1.4467818878548526,
783
+ "grad_norm": 15.87769603729248,
784
+ "learning_rate": 3.553218112145147e-05,
785
+ "loss": 1.9853,
786
+ "step": 55500
787
+ },
788
+ {
789
+ "epoch": 1.459815958916608,
790
+ "grad_norm": 8.585647583007812,
791
+ "learning_rate": 3.540184041083392e-05,
792
+ "loss": 2.0239,
793
+ "step": 56000
794
+ },
795
+ {
796
+ "epoch": 1.4728500299783636,
797
+ "grad_norm": 4.249543190002441,
798
+ "learning_rate": 3.527149970021637e-05,
799
+ "loss": 2.0305,
800
+ "step": 56500
801
+ },
802
+ {
803
+ "epoch": 1.485884101040119,
804
+ "grad_norm": 6.320367336273193,
805
+ "learning_rate": 3.514115898959881e-05,
806
+ "loss": 2.0173,
807
+ "step": 57000
808
+ },
809
+ {
810
+ "epoch": 1.4989181721018743,
811
+ "grad_norm": 5.058931350708008,
812
+ "learning_rate": 3.501081827898126e-05,
813
+ "loss": 1.9641,
814
+ "step": 57500
815
+ },
816
+ {
817
+ "epoch": 1.5119522431636296,
818
+ "grad_norm": 10.568583488464355,
819
+ "learning_rate": 3.4880477568363705e-05,
820
+ "loss": 2.035,
821
+ "step": 58000
822
+ },
823
+ {
824
+ "epoch": 1.524986314225385,
825
+ "grad_norm": 6.535768985748291,
826
+ "learning_rate": 3.475013685774615e-05,
827
+ "loss": 1.9971,
828
+ "step": 58500
829
+ },
830
+ {
831
+ "epoch": 1.5380203852871406,
832
+ "grad_norm": 11.262877464294434,
833
+ "learning_rate": 3.46197961471286e-05,
834
+ "loss": 2.0076,
835
+ "step": 59000
836
+ },
837
+ {
838
+ "epoch": 1.5510544563488962,
839
+ "grad_norm": 8.998533248901367,
840
+ "learning_rate": 3.448945543651104e-05,
841
+ "loss": 1.986,
842
+ "step": 59500
843
+ },
844
+ {
845
+ "epoch": 1.5640885274106515,
846
+ "grad_norm": 5.243868827819824,
847
+ "learning_rate": 3.4359114725893486e-05,
848
+ "loss": 2.0148,
849
+ "step": 60000
850
+ },
851
+ {
852
+ "epoch": 1.5771225984724069,
853
+ "grad_norm": 6.43707275390625,
854
+ "learning_rate": 3.422877401527593e-05,
855
+ "loss": 1.9952,
856
+ "step": 60500
857
+ },
858
+ {
859
+ "epoch": 1.5901566695341622,
860
+ "grad_norm": 10.8756742477417,
861
+ "learning_rate": 3.409843330465838e-05,
862
+ "loss": 1.9688,
863
+ "step": 61000
864
+ },
865
+ {
866
+ "epoch": 1.6031907405959176,
867
+ "grad_norm": 3.6488418579101562,
868
+ "learning_rate": 3.3968092594040824e-05,
869
+ "loss": 1.9545,
870
+ "step": 61500
871
+ },
872
+ {
873
+ "epoch": 1.6162248116576732,
874
+ "grad_norm": 3.8945696353912354,
875
+ "learning_rate": 3.383775188342327e-05,
876
+ "loss": 1.9692,
877
+ "step": 62000
878
+ },
879
+ {
880
+ "epoch": 1.6292588827194285,
881
+ "grad_norm": 4.477757453918457,
882
+ "learning_rate": 3.370741117280571e-05,
883
+ "loss": 1.9559,
884
+ "step": 62500
885
+ },
886
+ {
887
+ "epoch": 1.6422929537811841,
888
+ "grad_norm": 5.086141586303711,
889
+ "learning_rate": 3.357707046218816e-05,
890
+ "loss": 1.929,
891
+ "step": 63000
892
+ },
893
+ {
894
+ "epoch": 1.6553270248429395,
895
+ "grad_norm": 5.249891757965088,
896
+ "learning_rate": 3.3446729751570605e-05,
897
+ "loss": 1.9686,
898
+ "step": 63500
899
+ },
900
+ {
901
+ "epoch": 1.6683610959046948,
902
+ "grad_norm": 9.6456880569458,
903
+ "learning_rate": 3.3316389040953055e-05,
904
+ "loss": 1.952,
905
+ "step": 64000
906
+ },
907
+ {
908
+ "epoch": 1.6813951669664502,
909
+ "grad_norm": 5.007114410400391,
910
+ "learning_rate": 3.31860483303355e-05,
911
+ "loss": 1.9229,
912
+ "step": 64500
913
+ },
914
+ {
915
+ "epoch": 1.6944292380282058,
916
+ "grad_norm": 4.589148044586182,
917
+ "learning_rate": 3.305570761971795e-05,
918
+ "loss": 1.9296,
919
+ "step": 65000
920
+ },
921
+ {
922
+ "epoch": 1.7074633090899611,
923
+ "grad_norm": 10.281172752380371,
924
+ "learning_rate": 3.292536690910039e-05,
925
+ "loss": 1.9153,
926
+ "step": 65500
927
+ },
928
+ {
929
+ "epoch": 1.7204973801517167,
930
+ "grad_norm": 7.041563034057617,
931
+ "learning_rate": 3.2795026198482837e-05,
932
+ "loss": 1.9276,
933
+ "step": 66000
934
+ },
935
+ {
936
+ "epoch": 1.733531451213472,
937
+ "grad_norm": 8.523409843444824,
938
+ "learning_rate": 3.266468548786528e-05,
939
+ "loss": 1.8871,
940
+ "step": 66500
941
+ },
942
+ {
943
+ "epoch": 1.7465655222752274,
944
+ "grad_norm": 18.92120361328125,
945
+ "learning_rate": 3.253434477724773e-05,
946
+ "loss": 1.8963,
947
+ "step": 67000
948
+ },
949
+ {
950
+ "epoch": 1.7595995933369828,
951
+ "grad_norm": 17.547399520874023,
952
+ "learning_rate": 3.2404004066630174e-05,
953
+ "loss": 1.9069,
954
+ "step": 67500
955
+ },
956
+ {
957
+ "epoch": 1.7726336643987382,
958
+ "grad_norm": 9.223323822021484,
959
+ "learning_rate": 3.227366335601262e-05,
960
+ "loss": 1.9232,
961
+ "step": 68000
962
+ },
963
+ {
964
+ "epoch": 1.7856677354604937,
965
+ "grad_norm": 17.263656616210938,
966
+ "learning_rate": 3.214332264539506e-05,
967
+ "loss": 1.89,
968
+ "step": 68500
969
+ },
970
+ {
971
+ "epoch": 1.7987018065222493,
972
+ "grad_norm": 19.6173152923584,
973
+ "learning_rate": 3.201298193477751e-05,
974
+ "loss": 1.8764,
975
+ "step": 69000
976
+ },
977
+ {
978
+ "epoch": 1.8117358775840047,
979
+ "grad_norm": 10.714072227478027,
980
+ "learning_rate": 3.1882641224159955e-05,
981
+ "loss": 1.9165,
982
+ "step": 69500
983
+ },
984
+ {
985
+ "epoch": 1.82476994864576,
986
+ "grad_norm": 5.039360523223877,
987
+ "learning_rate": 3.17523005135424e-05,
988
+ "loss": 1.8422,
989
+ "step": 70000
990
+ },
991
+ {
992
+ "epoch": 1.8378040197075154,
993
+ "grad_norm": 28.72756576538086,
994
+ "learning_rate": 3.162195980292485e-05,
995
+ "loss": 1.8819,
996
+ "step": 70500
997
+ },
998
+ {
999
+ "epoch": 1.8508380907692707,
1000
+ "grad_norm": 4.069336414337158,
1001
+ "learning_rate": 3.149161909230729e-05,
1002
+ "loss": 1.8769,
1003
+ "step": 71000
1004
+ },
1005
+ {
1006
+ "epoch": 1.8638721618310263,
1007
+ "grad_norm": 4.223635196685791,
1008
+ "learning_rate": 3.136127838168974e-05,
1009
+ "loss": 1.8799,
1010
+ "step": 71500
1011
+ },
1012
+ {
1013
+ "epoch": 1.8769062328927817,
1014
+ "grad_norm": 10.401415824890137,
1015
+ "learning_rate": 3.123093767107219e-05,
1016
+ "loss": 1.905,
1017
+ "step": 72000
1018
+ },
1019
+ {
1020
+ "epoch": 1.8899403039545373,
1021
+ "grad_norm": 5.064211368560791,
1022
+ "learning_rate": 3.110059696045463e-05,
1023
+ "loss": 1.827,
1024
+ "step": 72500
1025
+ },
1026
+ {
1027
+ "epoch": 1.9029743750162926,
1028
+ "grad_norm": 4.138282299041748,
1029
+ "learning_rate": 3.0970256249837074e-05,
1030
+ "loss": 1.8237,
1031
+ "step": 73000
1032
+ },
1033
+ {
1034
+ "epoch": 1.916008446078048,
1035
+ "grad_norm": 3.365440845489502,
1036
+ "learning_rate": 3.0839915539219525e-05,
1037
+ "loss": 1.8421,
1038
+ "step": 73500
1039
+ },
1040
+ {
1041
+ "epoch": 1.9290425171398033,
1042
+ "grad_norm": 7.819665431976318,
1043
+ "learning_rate": 3.070957482860197e-05,
1044
+ "loss": 1.8413,
1045
+ "step": 74000
1046
+ },
1047
+ {
1048
+ "epoch": 1.942076588201559,
1049
+ "grad_norm": 8.81440544128418,
1050
+ "learning_rate": 3.057923411798441e-05,
1051
+ "loss": 1.8633,
1052
+ "step": 74500
1053
+ },
1054
+ {
1055
+ "epoch": 1.9551106592633143,
1056
+ "grad_norm": 12.814815521240234,
1057
+ "learning_rate": 3.044889340736686e-05,
1058
+ "loss": 1.8255,
1059
+ "step": 75000
1060
+ },
1061
+ {
1062
+ "epoch": 1.9681447303250699,
1063
+ "grad_norm": 7.332582950592041,
1064
+ "learning_rate": 3.0318552696749302e-05,
1065
+ "loss": 1.8228,
1066
+ "step": 75500
1067
+ },
1068
+ {
1069
+ "epoch": 1.9811788013868252,
1070
+ "grad_norm": 6.4567694664001465,
1071
+ "learning_rate": 3.018821198613175e-05,
1072
+ "loss": 1.8514,
1073
+ "step": 76000
1074
+ },
1075
+ {
1076
+ "epoch": 1.9942128724485806,
1077
+ "grad_norm": 33.37932205200195,
1078
+ "learning_rate": 3.0057871275514193e-05,
1079
+ "loss": 1.8347,
1080
+ "step": 76500
1081
+ },
1082
+ {
1083
+ "epoch": 2.007246943510336,
1084
+ "grad_norm": 3.908621072769165,
1085
+ "learning_rate": 2.992753056489664e-05,
1086
+ "loss": 1.8015,
1087
+ "step": 77000
1088
+ },
1089
+ {
1090
+ "epoch": 2.0202810145720913,
1091
+ "grad_norm": 3.9100475311279297,
1092
+ "learning_rate": 2.979718985427909e-05,
1093
+ "loss": 1.8148,
1094
+ "step": 77500
1095
+ },
1096
+ {
1097
+ "epoch": 2.0333150856338467,
1098
+ "grad_norm": 4.988982200622559,
1099
+ "learning_rate": 2.9666849143661534e-05,
1100
+ "loss": 1.7508,
1101
+ "step": 78000
1102
+ },
1103
+ {
1104
+ "epoch": 2.0463491566956025,
1105
+ "grad_norm": 5.134647846221924,
1106
+ "learning_rate": 2.953650843304398e-05,
1107
+ "loss": 1.7613,
1108
+ "step": 78500
1109
+ },
1110
+ {
1111
+ "epoch": 2.059383227757358,
1112
+ "grad_norm": 6.9095845222473145,
1113
+ "learning_rate": 2.9406167722426425e-05,
1114
+ "loss": 1.8106,
1115
+ "step": 79000
1116
+ },
1117
+ {
1118
+ "epoch": 2.072417298819113,
1119
+ "grad_norm": 14.57297420501709,
1120
+ "learning_rate": 2.927582701180887e-05,
1121
+ "loss": 1.7387,
1122
+ "step": 79500
1123
+ },
1124
+ {
1125
+ "epoch": 2.0854513698808685,
1126
+ "grad_norm": 46.801937103271484,
1127
+ "learning_rate": 2.9145486301191315e-05,
1128
+ "loss": 1.7732,
1129
+ "step": 80000
1130
+ },
1131
+ {
1132
+ "epoch": 2.098485440942624,
1133
+ "grad_norm": 10.51559829711914,
1134
+ "learning_rate": 2.9015145590573762e-05,
1135
+ "loss": 1.779,
1136
+ "step": 80500
1137
+ },
1138
+ {
1139
+ "epoch": 2.1115195120043793,
1140
+ "grad_norm": 3.4089362621307373,
1141
+ "learning_rate": 2.8884804879956206e-05,
1142
+ "loss": 1.7613,
1143
+ "step": 81000
1144
+ },
1145
+ {
1146
+ "epoch": 2.124553583066135,
1147
+ "grad_norm": 6.211880207061768,
1148
+ "learning_rate": 2.8754464169338653e-05,
1149
+ "loss": 1.7656,
1150
+ "step": 81500
1151
+ },
1152
+ {
1153
+ "epoch": 2.1375876541278904,
1154
+ "grad_norm": 4.486207962036133,
1155
+ "learning_rate": 2.8624123458721096e-05,
1156
+ "loss": 1.7653,
1157
+ "step": 82000
1158
+ },
1159
+ {
1160
+ "epoch": 2.150621725189646,
1161
+ "grad_norm": 4.438023090362549,
1162
+ "learning_rate": 2.8493782748103543e-05,
1163
+ "loss": 1.758,
1164
+ "step": 82500
1165
+ },
1166
+ {
1167
+ "epoch": 2.163655796251401,
1168
+ "grad_norm": 5.200678825378418,
1169
+ "learning_rate": 2.8363442037485987e-05,
1170
+ "loss": 1.7487,
1171
+ "step": 83000
1172
+ },
1173
+ {
1174
+ "epoch": 2.1766898673131565,
1175
+ "grad_norm": 11.503108024597168,
1176
+ "learning_rate": 2.8233101326868434e-05,
1177
+ "loss": 1.7539,
1178
+ "step": 83500
1179
+ },
1180
+ {
1181
+ "epoch": 2.189723938374912,
1182
+ "grad_norm": 3.5593841075897217,
1183
+ "learning_rate": 2.8102760616250884e-05,
1184
+ "loss": 1.7604,
1185
+ "step": 84000
1186
+ },
1187
+ {
1188
+ "epoch": 2.2027580094366677,
1189
+ "grad_norm": 4.380959510803223,
1190
+ "learning_rate": 2.7972419905633328e-05,
1191
+ "loss": 1.7688,
1192
+ "step": 84500
1193
+ },
1194
+ {
1195
+ "epoch": 2.215792080498423,
1196
+ "grad_norm": 8.921208381652832,
1197
+ "learning_rate": 2.7842079195015775e-05,
1198
+ "loss": 1.7414,
1199
+ "step": 85000
1200
+ },
1201
+ {
1202
+ "epoch": 2.2288261515601784,
1203
+ "grad_norm": 4.622405529022217,
1204
+ "learning_rate": 2.771173848439822e-05,
1205
+ "loss": 1.7623,
1206
+ "step": 85500
1207
+ },
1208
+ {
1209
+ "epoch": 2.2418602226219337,
1210
+ "grad_norm": 27.651330947875977,
1211
+ "learning_rate": 2.7581397773780666e-05,
1212
+ "loss": 1.7172,
1213
+ "step": 86000
1214
+ },
1215
+ {
1216
+ "epoch": 2.254894293683689,
1217
+ "grad_norm": 4.457437992095947,
1218
+ "learning_rate": 2.745105706316311e-05,
1219
+ "loss": 1.7444,
1220
+ "step": 86500
1221
+ },
1222
+ {
1223
+ "epoch": 2.2679283647454445,
1224
+ "grad_norm": 5.793179988861084,
1225
+ "learning_rate": 2.7320716352545556e-05,
1226
+ "loss": 1.7386,
1227
+ "step": 87000
1228
+ },
1229
+ {
1230
+ "epoch": 2.2809624358072,
1231
+ "grad_norm": 3.3070342540740967,
1232
+ "learning_rate": 2.7190375641928e-05,
1233
+ "loss": 1.7066,
1234
+ "step": 87500
1235
+ },
1236
+ {
1237
+ "epoch": 2.2939965068689556,
1238
+ "grad_norm": 4.475468158721924,
1239
+ "learning_rate": 2.7060034931310447e-05,
1240
+ "loss": 1.7212,
1241
+ "step": 88000
1242
+ },
1243
+ {
1244
+ "epoch": 2.307030577930711,
1245
+ "grad_norm": 4.4862847328186035,
1246
+ "learning_rate": 2.692969422069289e-05,
1247
+ "loss": 1.7265,
1248
+ "step": 88500
1249
+ },
1250
+ {
1251
+ "epoch": 2.3200646489924663,
1252
+ "grad_norm": 3.608401298522949,
1253
+ "learning_rate": 2.6799353510075337e-05,
1254
+ "loss": 1.7324,
1255
+ "step": 89000
1256
+ },
1257
+ {
1258
+ "epoch": 2.3330987200542217,
1259
+ "grad_norm": 4.134375095367432,
1260
+ "learning_rate": 2.666901279945778e-05,
1261
+ "loss": 1.6866,
1262
+ "step": 89500
1263
+ },
1264
+ {
1265
+ "epoch": 2.346132791115977,
1266
+ "grad_norm": 4.030068874359131,
1267
+ "learning_rate": 2.6538672088840228e-05,
1268
+ "loss": 1.6955,
1269
+ "step": 90000
1270
+ },
1271
+ {
1272
+ "epoch": 2.3591668621777324,
1273
+ "grad_norm": 7.18529748916626,
1274
+ "learning_rate": 2.640833137822267e-05,
1275
+ "loss": 1.7119,
1276
+ "step": 90500
1277
+ },
1278
+ {
1279
+ "epoch": 2.3722009332394878,
1280
+ "grad_norm": 3.633330821990967,
1281
+ "learning_rate": 2.6277990667605122e-05,
1282
+ "loss": 1.737,
1283
+ "step": 91000
1284
+ },
1285
+ {
1286
+ "epoch": 2.3852350043012436,
1287
+ "grad_norm": 5.056845188140869,
1288
+ "learning_rate": 2.614764995698757e-05,
1289
+ "loss": 1.7121,
1290
+ "step": 91500
1291
+ },
1292
+ {
1293
+ "epoch": 2.398269075362999,
1294
+ "grad_norm": 3.203246831893921,
1295
+ "learning_rate": 2.6017309246370013e-05,
1296
+ "loss": 1.7096,
1297
+ "step": 92000
1298
+ },
1299
+ {
1300
+ "epoch": 2.4113031464247543,
1301
+ "grad_norm": 3.830634355545044,
1302
+ "learning_rate": 2.588696853575246e-05,
1303
+ "loss": 1.7047,
1304
+ "step": 92500
1305
+ },
1306
+ {
1307
+ "epoch": 2.4243372174865097,
1308
+ "grad_norm": 3.5095880031585693,
1309
+ "learning_rate": 2.5756627825134903e-05,
1310
+ "loss": 1.6875,
1311
+ "step": 93000
1312
+ },
1313
+ {
1314
+ "epoch": 2.437371288548265,
1315
+ "grad_norm": 13.952683448791504,
1316
+ "learning_rate": 2.562628711451735e-05,
1317
+ "loss": 1.727,
1318
+ "step": 93500
1319
+ },
1320
+ {
1321
+ "epoch": 2.450405359610021,
1322
+ "grad_norm": 4.152392387390137,
1323
+ "learning_rate": 2.5495946403899794e-05,
1324
+ "loss": 1.674,
1325
+ "step": 94000
1326
+ },
1327
+ {
1328
+ "epoch": 2.463439430671776,
1329
+ "grad_norm": 28.32253074645996,
1330
+ "learning_rate": 2.536560569328224e-05,
1331
+ "loss": 1.6635,
1332
+ "step": 94500
1333
+ },
1334
+ {
1335
+ "epoch": 2.4764735017335315,
1336
+ "grad_norm": 37.356117248535156,
1337
+ "learning_rate": 2.5235264982664684e-05,
1338
+ "loss": 1.6936,
1339
+ "step": 95000
1340
+ },
1341
+ {
1342
+ "epoch": 2.489507572795287,
1343
+ "grad_norm": 11.425202369689941,
1344
+ "learning_rate": 2.510492427204713e-05,
1345
+ "loss": 1.6635,
1346
+ "step": 95500
1347
+ },
1348
+ {
1349
+ "epoch": 2.5025416438570423,
1350
+ "grad_norm": 3.700289726257324,
1351
+ "learning_rate": 2.497458356142958e-05,
1352
+ "loss": 1.7051,
1353
+ "step": 96000
1354
+ },
1355
+ {
1356
+ "epoch": 2.5155757149187976,
1357
+ "grad_norm": 16.234506607055664,
1358
+ "learning_rate": 2.4844242850812025e-05,
1359
+ "loss": 1.676,
1360
+ "step": 96500
1361
+ },
1362
+ {
1363
+ "epoch": 2.528609785980553,
1364
+ "grad_norm": 3.4809882640838623,
1365
+ "learning_rate": 2.471390214019447e-05,
1366
+ "loss": 1.6795,
1367
+ "step": 97000
1368
+ },
1369
+ {
1370
+ "epoch": 2.5416438570423088,
1371
+ "grad_norm": 4.420949459075928,
1372
+ "learning_rate": 2.4583561429576916e-05,
1373
+ "loss": 1.6926,
1374
+ "step": 97500
1375
+ },
1376
+ {
1377
+ "epoch": 2.554677928104064,
1378
+ "grad_norm": 24.02429962158203,
1379
+ "learning_rate": 2.445322071895936e-05,
1380
+ "loss": 1.6479,
1381
+ "step": 98000
1382
+ },
1383
+ {
1384
+ "epoch": 2.5677119991658195,
1385
+ "grad_norm": 4.912638187408447,
1386
+ "learning_rate": 2.4322880008341807e-05,
1387
+ "loss": 1.6598,
1388
+ "step": 98500
1389
+ },
1390
+ {
1391
+ "epoch": 2.580746070227575,
1392
+ "grad_norm": 22.43536376953125,
1393
+ "learning_rate": 2.419253929772425e-05,
1394
+ "loss": 1.6532,
1395
+ "step": 99000
1396
+ },
1397
+ {
1398
+ "epoch": 2.59378014128933,
1399
+ "grad_norm": 4.317445755004883,
1400
+ "learning_rate": 2.40621985871067e-05,
1401
+ "loss": 1.6554,
1402
+ "step": 99500
1403
+ },
1404
+ {
1405
+ "epoch": 2.606814212351086,
1406
+ "grad_norm": 14.290596008300781,
1407
+ "learning_rate": 2.3931857876489144e-05,
1408
+ "loss": 1.6265,
1409
+ "step": 100000
1410
+ },
1411
+ {
1412
+ "epoch": 2.619848283412841,
1413
+ "grad_norm": 4.331130504608154,
1414
+ "learning_rate": 2.380151716587159e-05,
1415
+ "loss": 1.6706,
1416
+ "step": 100500
1417
+ },
1418
+ {
1419
+ "epoch": 2.6328823544745967,
1420
+ "grad_norm": 7.016634941101074,
1421
+ "learning_rate": 2.3671176455254035e-05,
1422
+ "loss": 1.649,
1423
+ "step": 101000
1424
+ },
1425
+ {
1426
+ "epoch": 2.645916425536352,
1427
+ "grad_norm": 5.680657386779785,
1428
+ "learning_rate": 2.3540835744636482e-05,
1429
+ "loss": 1.6126,
1430
+ "step": 101500
1431
+ },
1432
+ {
1433
+ "epoch": 2.6589504965981074,
1434
+ "grad_norm": 4.337413311004639,
1435
+ "learning_rate": 2.3410495034018925e-05,
1436
+ "loss": 1.6317,
1437
+ "step": 102000
1438
+ },
1439
+ {
1440
+ "epoch": 2.671984567659863,
1441
+ "grad_norm": 20.466943740844727,
1442
+ "learning_rate": 2.3280154323401372e-05,
1443
+ "loss": 1.6348,
1444
+ "step": 102500
1445
+ },
1446
+ {
1447
+ "epoch": 2.685018638721618,
1448
+ "grad_norm": 4.808228969573975,
1449
+ "learning_rate": 2.314981361278382e-05,
1450
+ "loss": 1.5979,
1451
+ "step": 103000
1452
+ },
1453
+ {
1454
+ "epoch": 2.698052709783374,
1455
+ "grad_norm": 4.296200752258301,
1456
+ "learning_rate": 2.3019472902166263e-05,
1457
+ "loss": 1.6281,
1458
+ "step": 103500
1459
+ },
1460
+ {
1461
+ "epoch": 2.7110867808451293,
1462
+ "grad_norm": 32.726078033447266,
1463
+ "learning_rate": 2.288913219154871e-05,
1464
+ "loss": 1.5966,
1465
+ "step": 104000
1466
+ },
1467
+ {
1468
+ "epoch": 2.7241208519068847,
1469
+ "grad_norm": 4.275684833526611,
1470
+ "learning_rate": 2.2758791480931154e-05,
1471
+ "loss": 1.6108,
1472
+ "step": 104500
1473
+ },
1474
+ {
1475
+ "epoch": 2.73715492296864,
1476
+ "grad_norm": 3.496002197265625,
1477
+ "learning_rate": 2.26284507703136e-05,
1478
+ "loss": 1.6026,
1479
+ "step": 105000
1480
+ },
1481
+ {
1482
+ "epoch": 2.7501889940303954,
1483
+ "grad_norm": 9.172469139099121,
1484
+ "learning_rate": 2.2498110059696044e-05,
1485
+ "loss": 1.631,
1486
+ "step": 105500
1487
+ },
1488
+ {
1489
+ "epoch": 2.7632230650921508,
1490
+ "grad_norm": 16.79161834716797,
1491
+ "learning_rate": 2.2367769349078495e-05,
1492
+ "loss": 1.6357,
1493
+ "step": 106000
1494
+ },
1495
+ {
1496
+ "epoch": 2.776257136153906,
1497
+ "grad_norm": 14.198761940002441,
1498
+ "learning_rate": 2.2237428638460938e-05,
1499
+ "loss": 1.6423,
1500
+ "step": 106500
1501
+ },
1502
+ {
1503
+ "epoch": 2.789291207215662,
1504
+ "grad_norm": 5.301556587219238,
1505
+ "learning_rate": 2.2107087927843385e-05,
1506
+ "loss": 1.6125,
1507
+ "step": 107000
1508
+ },
1509
+ {
1510
+ "epoch": 2.8023252782774173,
1511
+ "grad_norm": 26.385272979736328,
1512
+ "learning_rate": 2.197674721722583e-05,
1513
+ "loss": 1.6334,
1514
+ "step": 107500
1515
+ },
1516
+ {
1517
+ "epoch": 2.8153593493391726,
1518
+ "grad_norm": 9.757530212402344,
1519
+ "learning_rate": 2.1846406506608276e-05,
1520
+ "loss": 1.586,
1521
+ "step": 108000
1522
+ },
1523
+ {
1524
+ "epoch": 2.828393420400928,
1525
+ "grad_norm": 20.982559204101562,
1526
+ "learning_rate": 2.171606579599072e-05,
1527
+ "loss": 1.6066,
1528
+ "step": 108500
1529
+ },
1530
+ {
1531
+ "epoch": 2.8414274914626834,
1532
+ "grad_norm": 3.695369243621826,
1533
+ "learning_rate": 2.1585725085373166e-05,
1534
+ "loss": 1.6307,
1535
+ "step": 109000
1536
+ },
1537
+ {
1538
+ "epoch": 2.8544615625244387,
1539
+ "grad_norm": 14.864655494689941,
1540
+ "learning_rate": 2.1455384374755613e-05,
1541
+ "loss": 1.5847,
1542
+ "step": 109500
1543
+ },
1544
+ {
1545
+ "epoch": 2.867495633586194,
1546
+ "grad_norm": 3.9043121337890625,
1547
+ "learning_rate": 2.1325043664138057e-05,
1548
+ "loss": 1.5904,
1549
+ "step": 110000
1550
+ },
1551
+ {
1552
+ "epoch": 2.88052970464795,
1553
+ "grad_norm": 4.432578086853027,
1554
+ "learning_rate": 2.1194702953520504e-05,
1555
+ "loss": 1.6037,
1556
+ "step": 110500
1557
+ },
1558
+ {
1559
+ "epoch": 2.8935637757097052,
1560
+ "grad_norm": 6.775419235229492,
1561
+ "learning_rate": 2.1064362242902948e-05,
1562
+ "loss": 1.6052,
1563
+ "step": 111000
1564
+ },
1565
+ {
1566
+ "epoch": 2.9065978467714606,
1567
+ "grad_norm": 5.090266227722168,
1568
+ "learning_rate": 2.0934021532285395e-05,
1569
+ "loss": 1.5814,
1570
+ "step": 111500
1571
+ },
1572
+ {
1573
+ "epoch": 2.919631917833216,
1574
+ "grad_norm": 7.805962085723877,
1575
+ "learning_rate": 2.0803680821667838e-05,
1576
+ "loss": 1.6016,
1577
+ "step": 112000
1578
+ },
1579
+ {
1580
+ "epoch": 2.9326659888949713,
1581
+ "grad_norm": 6.22263240814209,
1582
+ "learning_rate": 2.067334011105029e-05,
1583
+ "loss": 1.564,
1584
+ "step": 112500
1585
+ },
1586
+ {
1587
+ "epoch": 2.945700059956727,
1588
+ "grad_norm": 23.055776596069336,
1589
+ "learning_rate": 2.0542999400432732e-05,
1590
+ "loss": 1.555,
1591
+ "step": 113000
1592
+ },
1593
+ {
1594
+ "epoch": 2.958734131018482,
1595
+ "grad_norm": 20.39297866821289,
1596
+ "learning_rate": 2.041265868981518e-05,
1597
+ "loss": 1.5306,
1598
+ "step": 113500
1599
+ },
1600
+ {
1601
+ "epoch": 2.971768202080238,
1602
+ "grad_norm": 5.571432113647461,
1603
+ "learning_rate": 2.0282317979197623e-05,
1604
+ "loss": 1.577,
1605
+ "step": 114000
1606
+ },
1607
+ {
1608
+ "epoch": 2.984802273141993,
1609
+ "grad_norm": 15.77784252166748,
1610
+ "learning_rate": 2.015197726858007e-05,
1611
+ "loss": 1.6165,
1612
+ "step": 114500
1613
+ },
1614
+ {
1615
+ "epoch": 2.9978363442037486,
1616
+ "grad_norm": 4.388451099395752,
1617
+ "learning_rate": 2.0021636557962513e-05,
1618
+ "loss": 1.544,
1619
+ "step": 115000
1620
+ },
1621
+ {
1622
+ "epoch": 3.010870415265504,
1623
+ "grad_norm": 2.794743776321411,
1624
+ "learning_rate": 1.989129584734496e-05,
1625
+ "loss": 1.561,
1626
+ "step": 115500
1627
+ },
1628
+ {
1629
+ "epoch": 3.0239044863272593,
1630
+ "grad_norm": 38.998512268066406,
1631
+ "learning_rate": 1.9760955136727407e-05,
1632
+ "loss": 1.5344,
1633
+ "step": 116000
1634
+ },
1635
+ {
1636
+ "epoch": 3.036938557389015,
1637
+ "grad_norm": 10.872420310974121,
1638
+ "learning_rate": 1.9630614426109854e-05,
1639
+ "loss": 1.5191,
1640
+ "step": 116500
1641
+ },
1642
+ {
1643
+ "epoch": 3.0499726284507704,
1644
+ "grad_norm": 4.433558464050293,
1645
+ "learning_rate": 1.9500273715492298e-05,
1646
+ "loss": 1.5093,
1647
+ "step": 117000
1648
+ },
1649
+ {
1650
+ "epoch": 3.063006699512526,
1651
+ "grad_norm": 3.8315622806549072,
1652
+ "learning_rate": 1.9369933004874745e-05,
1653
+ "loss": 1.5344,
1654
+ "step": 117500
1655
+ },
1656
+ {
1657
+ "epoch": 3.076040770574281,
1658
+ "grad_norm": 24.29652976989746,
1659
+ "learning_rate": 1.923959229425719e-05,
1660
+ "loss": 1.5557,
1661
+ "step": 118000
1662
+ },
1663
+ {
1664
+ "epoch": 3.0890748416360365,
1665
+ "grad_norm": 4.876192092895508,
1666
+ "learning_rate": 1.9109251583639636e-05,
1667
+ "loss": 1.5381,
1668
+ "step": 118500
1669
+ },
1670
+ {
1671
+ "epoch": 3.102108912697792,
1672
+ "grad_norm": 4.730300426483154,
1673
+ "learning_rate": 1.897891087302208e-05,
1674
+ "loss": 1.4977,
1675
+ "step": 119000
1676
+ },
1677
+ {
1678
+ "epoch": 3.1151429837595472,
1679
+ "grad_norm": 15.773541450500488,
1680
+ "learning_rate": 1.8848570162404526e-05,
1681
+ "loss": 1.5262,
1682
+ "step": 119500
1683
+ },
1684
+ {
1685
+ "epoch": 3.128177054821303,
1686
+ "grad_norm": 3.4133520126342773,
1687
+ "learning_rate": 1.8718229451786973e-05,
1688
+ "loss": 1.5142,
1689
+ "step": 120000
1690
+ },
1691
+ {
1692
+ "epoch": 3.1412111258830584,
1693
+ "grad_norm": 4.271722316741943,
1694
+ "learning_rate": 1.8587888741169417e-05,
1695
+ "loss": 1.5108,
1696
+ "step": 120500
1697
+ },
1698
+ {
1699
+ "epoch": 3.1542451969448138,
1700
+ "grad_norm": 4.478157997131348,
1701
+ "learning_rate": 1.8457548030551864e-05,
1702
+ "loss": 1.5111,
1703
+ "step": 121000
1704
+ },
1705
+ {
1706
+ "epoch": 3.167279268006569,
1707
+ "grad_norm": 6.74271821975708,
1708
+ "learning_rate": 1.8327207319934307e-05,
1709
+ "loss": 1.5359,
1710
+ "step": 121500
1711
+ },
1712
+ {
1713
+ "epoch": 3.1803133390683245,
1714
+ "grad_norm": 10.100676536560059,
1715
+ "learning_rate": 1.8196866609316754e-05,
1716
+ "loss": 1.4856,
1717
+ "step": 122000
1718
+ },
1719
+ {
1720
+ "epoch": 3.19334741013008,
1721
+ "grad_norm": 5.077882289886475,
1722
+ "learning_rate": 1.8066525898699198e-05,
1723
+ "loss": 1.5054,
1724
+ "step": 122500
1725
+ },
1726
+ {
1727
+ "epoch": 3.2063814811918356,
1728
+ "grad_norm": 4.155623912811279,
1729
+ "learning_rate": 1.793618518808165e-05,
1730
+ "loss": 1.5089,
1731
+ "step": 123000
1732
+ },
1733
+ {
1734
+ "epoch": 3.219415552253591,
1735
+ "grad_norm": 3.6238481998443604,
1736
+ "learning_rate": 1.7805844477464092e-05,
1737
+ "loss": 1.4933,
1738
+ "step": 123500
1739
+ },
1740
+ {
1741
+ "epoch": 3.2324496233153464,
1742
+ "grad_norm": 4.119343280792236,
1743
+ "learning_rate": 1.767550376684654e-05,
1744
+ "loss": 1.5215,
1745
+ "step": 124000
1746
+ },
1747
+ {
1748
+ "epoch": 3.2454836943771017,
1749
+ "grad_norm": 3.789219379425049,
1750
+ "learning_rate": 1.7545163056228983e-05,
1751
+ "loss": 1.4686,
1752
+ "step": 124500
1753
+ },
1754
+ {
1755
+ "epoch": 3.258517765438857,
1756
+ "grad_norm": 23.477462768554688,
1757
+ "learning_rate": 1.741482234561143e-05,
1758
+ "loss": 1.4928,
1759
+ "step": 125000
1760
+ },
1761
+ {
1762
+ "epoch": 3.2715518365006124,
1763
+ "grad_norm": 34.81294250488281,
1764
+ "learning_rate": 1.7284481634993873e-05,
1765
+ "loss": 1.5147,
1766
+ "step": 125500
1767
+ },
1768
+ {
1769
+ "epoch": 3.2845859075623682,
1770
+ "grad_norm": 3.911698579788208,
1771
+ "learning_rate": 1.715414092437632e-05,
1772
+ "loss": 1.498,
1773
+ "step": 126000
1774
+ },
1775
+ {
1776
+ "epoch": 3.2976199786241236,
1777
+ "grad_norm": 17.540603637695312,
1778
+ "learning_rate": 1.7023800213758767e-05,
1779
+ "loss": 1.5224,
1780
+ "step": 126500
1781
+ },
1782
+ {
1783
+ "epoch": 3.310654049685879,
1784
+ "grad_norm": 5.028404712677002,
1785
+ "learning_rate": 1.689345950314121e-05,
1786
+ "loss": 1.4782,
1787
+ "step": 127000
1788
+ },
1789
+ {
1790
+ "epoch": 3.3236881207476343,
1791
+ "grad_norm": 11.53537654876709,
1792
+ "learning_rate": 1.6763118792523658e-05,
1793
+ "loss": 1.4837,
1794
+ "step": 127500
1795
+ },
1796
+ {
1797
+ "epoch": 3.3367221918093897,
1798
+ "grad_norm": 3.8512253761291504,
1799
+ "learning_rate": 1.66327780819061e-05,
1800
+ "loss": 1.4528,
1801
+ "step": 128000
1802
+ },
1803
+ {
1804
+ "epoch": 3.349756262871145,
1805
+ "grad_norm": 3.932035207748413,
1806
+ "learning_rate": 1.650243737128855e-05,
1807
+ "loss": 1.5026,
1808
+ "step": 128500
1809
+ },
1810
+ {
1811
+ "epoch": 3.3627903339329004,
1812
+ "grad_norm": 4.325034141540527,
1813
+ "learning_rate": 1.6372096660670992e-05,
1814
+ "loss": 1.4717,
1815
+ "step": 129000
1816
+ },
1817
+ {
1818
+ "epoch": 3.375824404994656,
1819
+ "grad_norm": 7.62436580657959,
1820
+ "learning_rate": 1.6241755950053442e-05,
1821
+ "loss": 1.4677,
1822
+ "step": 129500
1823
+ },
1824
+ {
1825
+ "epoch": 3.3888584760564116,
1826
+ "grad_norm": 4.481779098510742,
1827
+ "learning_rate": 1.6111415239435886e-05,
1828
+ "loss": 1.487,
1829
+ "step": 130000
1830
+ },
1831
+ {
1832
+ "epoch": 3.401892547118167,
1833
+ "grad_norm": 4.1522536277771,
1834
+ "learning_rate": 1.5981074528818333e-05,
1835
+ "loss": 1.4724,
1836
+ "step": 130500
1837
+ },
1838
+ {
1839
+ "epoch": 3.4149266181799223,
1840
+ "grad_norm": 22.38875961303711,
1841
+ "learning_rate": 1.5850733818200777e-05,
1842
+ "loss": 1.4694,
1843
+ "step": 131000
1844
+ },
1845
+ {
1846
+ "epoch": 3.4279606892416776,
1847
+ "grad_norm": 5.144596099853516,
1848
+ "learning_rate": 1.5720393107583224e-05,
1849
+ "loss": 1.4792,
1850
+ "step": 131500
1851
+ },
1852
+ {
1853
+ "epoch": 3.440994760303433,
1854
+ "grad_norm": 4.0159912109375,
1855
+ "learning_rate": 1.5590052396965667e-05,
1856
+ "loss": 1.4535,
1857
+ "step": 132000
1858
+ },
1859
+ {
1860
+ "epoch": 3.454028831365189,
1861
+ "grad_norm": 4.164160251617432,
1862
+ "learning_rate": 1.5459711686348114e-05,
1863
+ "loss": 1.4516,
1864
+ "step": 132500
1865
+ },
1866
+ {
1867
+ "epoch": 3.467062902426944,
1868
+ "grad_norm": 4.1465349197387695,
1869
+ "learning_rate": 1.532937097573056e-05,
1870
+ "loss": 1.4383,
1871
+ "step": 133000
1872
+ },
1873
+ {
1874
+ "epoch": 3.4800969734886995,
1875
+ "grad_norm": 5.3553466796875,
1876
+ "learning_rate": 1.5199030265113007e-05,
1877
+ "loss": 1.4588,
1878
+ "step": 133500
1879
+ },
1880
+ {
1881
+ "epoch": 3.493131044550455,
1882
+ "grad_norm": 4.2381110191345215,
1883
+ "learning_rate": 1.5068689554495452e-05,
1884
+ "loss": 1.4607,
1885
+ "step": 134000
1886
+ },
1887
+ {
1888
+ "epoch": 3.5061651156122102,
1889
+ "grad_norm": 4.227059364318848,
1890
+ "learning_rate": 1.4938348843877897e-05,
1891
+ "loss": 1.4855,
1892
+ "step": 134500
1893
+ },
1894
+ {
1895
+ "epoch": 3.5191991866739656,
1896
+ "grad_norm": 4.23318338394165,
1897
+ "learning_rate": 1.4808008133260342e-05,
1898
+ "loss": 1.4452,
1899
+ "step": 135000
1900
+ },
1901
+ {
1902
+ "epoch": 3.5322332577357214,
1903
+ "grad_norm": 4.2789788246154785,
1904
+ "learning_rate": 1.4677667422642788e-05,
1905
+ "loss": 1.4471,
1906
+ "step": 135500
1907
+ },
1908
+ {
1909
+ "epoch": 3.5452673287974767,
1910
+ "grad_norm": 14.372062683105469,
1911
+ "learning_rate": 1.4547326712025236e-05,
1912
+ "loss": 1.4663,
1913
+ "step": 136000
1914
+ },
1915
+ {
1916
+ "epoch": 3.558301399859232,
1917
+ "grad_norm": 4.719635963439941,
1918
+ "learning_rate": 1.4416986001407682e-05,
1919
+ "loss": 1.4628,
1920
+ "step": 136500
1921
+ },
1922
+ {
1923
+ "epoch": 3.5713354709209875,
1924
+ "grad_norm": 4.603359222412109,
1925
+ "learning_rate": 1.4286645290790127e-05,
1926
+ "loss": 1.4464,
1927
+ "step": 137000
1928
+ },
1929
+ {
1930
+ "epoch": 3.584369541982743,
1931
+ "grad_norm": 4.167656421661377,
1932
+ "learning_rate": 1.4156304580172572e-05,
1933
+ "loss": 1.4816,
1934
+ "step": 137500
1935
+ },
1936
+ {
1937
+ "epoch": 3.597403613044498,
1938
+ "grad_norm": 3.9802513122558594,
1939
+ "learning_rate": 1.4025963869555018e-05,
1940
+ "loss": 1.4404,
1941
+ "step": 138000
1942
+ },
1943
+ {
1944
+ "epoch": 3.6104376841062535,
1945
+ "grad_norm": 4.956002235412598,
1946
+ "learning_rate": 1.3895623158937463e-05,
1947
+ "loss": 1.4463,
1948
+ "step": 138500
1949
+ },
1950
+ {
1951
+ "epoch": 3.6234717551680093,
1952
+ "grad_norm": 4.82868766784668,
1953
+ "learning_rate": 1.3765282448319908e-05,
1954
+ "loss": 1.429,
1955
+ "step": 139000
1956
+ },
1957
+ {
1958
+ "epoch": 3.6365058262297647,
1959
+ "grad_norm": 9.303766250610352,
1960
+ "learning_rate": 1.3634941737702355e-05,
1961
+ "loss": 1.4492,
1962
+ "step": 139500
1963
+ },
1964
+ {
1965
+ "epoch": 3.64953989729152,
1966
+ "grad_norm": 4.728789806365967,
1967
+ "learning_rate": 1.35046010270848e-05,
1968
+ "loss": 1.4599,
1969
+ "step": 140000
1970
+ },
1971
+ {
1972
+ "epoch": 3.6625739683532754,
1973
+ "grad_norm": 4.169735431671143,
1974
+ "learning_rate": 1.3374260316467246e-05,
1975
+ "loss": 1.4346,
1976
+ "step": 140500
1977
+ },
1978
+ {
1979
+ "epoch": 3.675608039415031,
1980
+ "grad_norm": 4.134032249450684,
1981
+ "learning_rate": 1.3243919605849691e-05,
1982
+ "loss": 1.426,
1983
+ "step": 141000
1984
+ },
1985
+ {
1986
+ "epoch": 3.6886421104767866,
1987
+ "grad_norm": 7.31259822845459,
1988
+ "learning_rate": 1.3113578895232136e-05,
1989
+ "loss": 1.4489,
1990
+ "step": 141500
1991
+ },
1992
+ {
1993
+ "epoch": 3.7016761815385415,
1994
+ "grad_norm": 41.01179885864258,
1995
+ "learning_rate": 1.2983238184614582e-05,
1996
+ "loss": 1.4594,
1997
+ "step": 142000
1998
+ },
1999
+ {
2000
+ "epoch": 3.7147102526002973,
2001
+ "grad_norm": 4.123907566070557,
2002
+ "learning_rate": 1.2852897473997027e-05,
2003
+ "loss": 1.4445,
2004
+ "step": 142500
2005
+ },
2006
+ {
2007
+ "epoch": 3.7277443236620527,
2008
+ "grad_norm": 12.47805404663086,
2009
+ "learning_rate": 1.2722556763379476e-05,
2010
+ "loss": 1.416,
2011
+ "step": 143000
2012
+ },
2013
+ {
2014
+ "epoch": 3.740778394723808,
2015
+ "grad_norm": 4.795707702636719,
2016
+ "learning_rate": 1.2592216052761921e-05,
2017
+ "loss": 1.449,
2018
+ "step": 143500
2019
+ },
2020
+ {
2021
+ "epoch": 3.7538124657855634,
2022
+ "grad_norm": 3.754809856414795,
2023
+ "learning_rate": 1.2461875342144366e-05,
2024
+ "loss": 1.4353,
2025
+ "step": 144000
2026
+ },
2027
+ {
2028
+ "epoch": 3.7668465368473187,
2029
+ "grad_norm": 4.847051620483398,
2030
+ "learning_rate": 1.2331534631526812e-05,
2031
+ "loss": 1.4081,
2032
+ "step": 144500
2033
+ },
2034
+ {
2035
+ "epoch": 3.7798806079090745,
2036
+ "grad_norm": 5.240978240966797,
2037
+ "learning_rate": 1.2201193920909257e-05,
2038
+ "loss": 1.4497,
2039
+ "step": 145000
2040
+ },
2041
+ {
2042
+ "epoch": 3.79291467897083,
2043
+ "grad_norm": 4.278606414794922,
2044
+ "learning_rate": 1.2070853210291704e-05,
2045
+ "loss": 1.4296,
2046
+ "step": 145500
2047
+ },
2048
+ {
2049
+ "epoch": 3.8059487500325853,
2050
+ "grad_norm": 24.963735580444336,
2051
+ "learning_rate": 1.194051249967415e-05,
2052
+ "loss": 1.4273,
2053
+ "step": 146000
2054
+ },
2055
+ {
2056
+ "epoch": 3.8189828210943406,
2057
+ "grad_norm": 3.3722941875457764,
2058
+ "learning_rate": 1.1810171789056595e-05,
2059
+ "loss": 1.3939,
2060
+ "step": 146500
2061
+ },
2062
+ {
2063
+ "epoch": 3.832016892156096,
2064
+ "grad_norm": 3.9926798343658447,
2065
+ "learning_rate": 1.1679831078439042e-05,
2066
+ "loss": 1.4149,
2067
+ "step": 147000
2068
+ },
2069
+ {
2070
+ "epoch": 3.8450509632178513,
2071
+ "grad_norm": 7.269467353820801,
2072
+ "learning_rate": 1.1549490367821487e-05,
2073
+ "loss": 1.4004,
2074
+ "step": 147500
2075
+ },
2076
+ {
2077
+ "epoch": 3.8580850342796067,
2078
+ "grad_norm": 5.596455097198486,
2079
+ "learning_rate": 1.1419149657203932e-05,
2080
+ "loss": 1.4133,
2081
+ "step": 148000
2082
+ },
2083
+ {
2084
+ "epoch": 3.8711191053413625,
2085
+ "grad_norm": 5.81203556060791,
2086
+ "learning_rate": 1.1288808946586377e-05,
2087
+ "loss": 1.4313,
2088
+ "step": 148500
2089
+ },
2090
+ {
2091
+ "epoch": 3.884153176403118,
2092
+ "grad_norm": 4.842901229858398,
2093
+ "learning_rate": 1.1158468235968823e-05,
2094
+ "loss": 1.4139,
2095
+ "step": 149000
2096
+ },
2097
+ {
2098
+ "epoch": 3.897187247464873,
2099
+ "grad_norm": 3.6464438438415527,
2100
+ "learning_rate": 1.1028127525351268e-05,
2101
+ "loss": 1.4189,
2102
+ "step": 149500
2103
+ },
2104
+ {
2105
+ "epoch": 3.9102213185266286,
2106
+ "grad_norm": 5.625620365142822,
2107
+ "learning_rate": 1.0897786814733713e-05,
2108
+ "loss": 1.4119,
2109
+ "step": 150000
2110
+ },
2111
+ {
2112
+ "epoch": 3.923255389588384,
2113
+ "grad_norm": 3.84614896774292,
2114
+ "learning_rate": 1.076744610411616e-05,
2115
+ "loss": 1.4094,
2116
+ "step": 150500
2117
+ },
2118
+ {
2119
+ "epoch": 3.9362894606501397,
2120
+ "grad_norm": 5.183802127838135,
2121
+ "learning_rate": 1.0637105393498606e-05,
2122
+ "loss": 1.4157,
2123
+ "step": 151000
2124
+ },
2125
+ {
2126
+ "epoch": 3.9493235317118947,
2127
+ "grad_norm": 4.6199140548706055,
2128
+ "learning_rate": 1.0506764682881051e-05,
2129
+ "loss": 1.4067,
2130
+ "step": 151500
2131
+ },
2132
+ {
2133
+ "epoch": 3.9623576027736505,
2134
+ "grad_norm": 5.642277717590332,
2135
+ "learning_rate": 1.0376423972263498e-05,
2136
+ "loss": 1.3994,
2137
+ "step": 152000
2138
+ },
2139
+ {
2140
+ "epoch": 3.975391673835406,
2141
+ "grad_norm": 4.15669584274292,
2142
+ "learning_rate": 1.0246083261645943e-05,
2143
+ "loss": 1.4304,
2144
+ "step": 152500
2145
+ },
2146
+ {
2147
+ "epoch": 3.988425744897161,
2148
+ "grad_norm": 4.729000568389893,
2149
+ "learning_rate": 1.0115742551028389e-05,
2150
+ "loss": 1.3979,
2151
+ "step": 153000
2152
+ },
2153
+ {
2154
+ "epoch": 4.001459815958917,
2155
+ "grad_norm": 3.2223262786865234,
2156
+ "learning_rate": 9.985401840410834e-06,
2157
+ "loss": 1.3897,
2158
+ "step": 153500
2159
+ },
2160
+ {
2161
+ "epoch": 4.014493887020672,
2162
+ "grad_norm": 4.223217964172363,
2163
+ "learning_rate": 9.855061129793281e-06,
2164
+ "loss": 1.3567,
2165
+ "step": 154000
2166
+ },
2167
+ {
2168
+ "epoch": 4.027527958082428,
2169
+ "grad_norm": 3.201354742050171,
2170
+ "learning_rate": 9.724720419175726e-06,
2171
+ "loss": 1.3796,
2172
+ "step": 154500
2173
+ },
2174
+ {
2175
+ "epoch": 4.040562029144183,
2176
+ "grad_norm": 31.99419593811035,
2177
+ "learning_rate": 9.594379708558171e-06,
2178
+ "loss": 1.3475,
2179
+ "step": 155000
2180
+ },
2181
+ {
2182
+ "epoch": 4.053596100205938,
2183
+ "grad_norm": 19.76371192932129,
2184
+ "learning_rate": 9.464038997940618e-06,
2185
+ "loss": 1.3278,
2186
+ "step": 155500
2187
+ },
2188
+ {
2189
+ "epoch": 4.066630171267693,
2190
+ "grad_norm": 3.462979316711426,
2191
+ "learning_rate": 9.333698287323064e-06,
2192
+ "loss": 1.3632,
2193
+ "step": 156000
2194
+ },
2195
+ {
2196
+ "epoch": 4.079664242329449,
2197
+ "grad_norm": 27.641897201538086,
2198
+ "learning_rate": 9.203357576705509e-06,
2199
+ "loss": 1.3203,
2200
+ "step": 156500
2201
+ },
2202
+ {
2203
+ "epoch": 4.092698313391205,
2204
+ "grad_norm": 3.934295654296875,
2205
+ "learning_rate": 9.073016866087954e-06,
2206
+ "loss": 1.3793,
2207
+ "step": 157000
2208
+ },
2209
+ {
2210
+ "epoch": 4.10573238445296,
2211
+ "grad_norm": 3.3237240314483643,
2212
+ "learning_rate": 8.9426761554704e-06,
2213
+ "loss": 1.3375,
2214
+ "step": 157500
2215
+ },
2216
+ {
2217
+ "epoch": 4.118766455514716,
2218
+ "grad_norm": 5.202388286590576,
2219
+ "learning_rate": 8.812335444852845e-06,
2220
+ "loss": 1.3852,
2221
+ "step": 158000
2222
+ },
2223
+ {
2224
+ "epoch": 4.131800526576471,
2225
+ "grad_norm": 28.595399856567383,
2226
+ "learning_rate": 8.68199473423529e-06,
2227
+ "loss": 1.3644,
2228
+ "step": 158500
2229
+ },
2230
+ {
2231
+ "epoch": 4.144834597638226,
2232
+ "grad_norm": 3.2022364139556885,
2233
+ "learning_rate": 8.551654023617737e-06,
2234
+ "loss": 1.3734,
2235
+ "step": 159000
2236
+ },
2237
+ {
2238
+ "epoch": 4.157868668699982,
2239
+ "grad_norm": 4.231220245361328,
2240
+ "learning_rate": 8.421313313000183e-06,
2241
+ "loss": 1.349,
2242
+ "step": 159500
2243
+ },
2244
+ {
2245
+ "epoch": 4.170902739761737,
2246
+ "grad_norm": 4.515881538391113,
2247
+ "learning_rate": 8.290972602382628e-06,
2248
+ "loss": 1.3392,
2249
+ "step": 160000
2250
+ },
2251
+ {
2252
+ "epoch": 4.183936810823493,
2253
+ "grad_norm": 3.6497957706451416,
2254
+ "learning_rate": 8.160631891765075e-06,
2255
+ "loss": 1.3495,
2256
+ "step": 160500
2257
+ },
2258
+ {
2259
+ "epoch": 4.196970881885248,
2260
+ "grad_norm": 16.680282592773438,
2261
+ "learning_rate": 8.03029118114752e-06,
2262
+ "loss": 1.3566,
2263
+ "step": 161000
2264
+ },
2265
+ {
2266
+ "epoch": 4.210004952947004,
2267
+ "grad_norm": 18.566879272460938,
2268
+ "learning_rate": 7.899950470529966e-06,
2269
+ "loss": 1.3248,
2270
+ "step": 161500
2271
+ },
2272
+ {
2273
+ "epoch": 4.2230390240087585,
2274
+ "grad_norm": 3.9700820446014404,
2275
+ "learning_rate": 7.769609759912413e-06,
2276
+ "loss": 1.3767,
2277
+ "step": 162000
2278
+ },
2279
+ {
2280
+ "epoch": 4.236073095070514,
2281
+ "grad_norm": 42.5576286315918,
2282
+ "learning_rate": 7.639269049294858e-06,
2283
+ "loss": 1.3346,
2284
+ "step": 162500
2285
+ },
2286
+ {
2287
+ "epoch": 4.24910716613227,
2288
+ "grad_norm": 7.013011455535889,
2289
+ "learning_rate": 7.508928338677302e-06,
2290
+ "loss": 1.3752,
2291
+ "step": 163000
2292
+ },
2293
+ {
2294
+ "epoch": 4.262141237194025,
2295
+ "grad_norm": 12.351140975952148,
2296
+ "learning_rate": 7.3785876280597476e-06,
2297
+ "loss": 1.3213,
2298
+ "step": 163500
2299
+ },
2300
+ {
2301
+ "epoch": 4.275175308255781,
2302
+ "grad_norm": 48.051631927490234,
2303
+ "learning_rate": 7.2482469174421946e-06,
2304
+ "loss": 1.3453,
2305
+ "step": 164000
2306
+ },
2307
+ {
2308
+ "epoch": 4.288209379317536,
2309
+ "grad_norm": 3.8004846572875977,
2310
+ "learning_rate": 7.11790620682464e-06,
2311
+ "loss": 1.3231,
2312
+ "step": 164500
2313
+ },
2314
+ {
2315
+ "epoch": 4.301243450379292,
2316
+ "grad_norm": 3.8865389823913574,
2317
+ "learning_rate": 6.987565496207085e-06,
2318
+ "loss": 1.3353,
2319
+ "step": 165000
2320
+ },
2321
+ {
2322
+ "epoch": 4.3142775214410465,
2323
+ "grad_norm": 4.471733093261719,
2324
+ "learning_rate": 6.857224785589532e-06,
2325
+ "loss": 1.3411,
2326
+ "step": 165500
2327
+ },
2328
+ {
2329
+ "epoch": 4.327311592502802,
2330
+ "grad_norm": 4.856067657470703,
2331
+ "learning_rate": 6.7268840749719775e-06,
2332
+ "loss": 1.3254,
2333
+ "step": 166000
2334
+ },
2335
+ {
2336
+ "epoch": 4.340345663564558,
2337
+ "grad_norm": 4.089067459106445,
2338
+ "learning_rate": 6.596543364354423e-06,
2339
+ "loss": 1.3676,
2340
+ "step": 166500
2341
+ },
2342
+ {
2343
+ "epoch": 4.353379734626313,
2344
+ "grad_norm": 4.231725215911865,
2345
+ "learning_rate": 6.466202653736869e-06,
2346
+ "loss": 1.3331,
2347
+ "step": 167000
2348
+ },
2349
+ {
2350
+ "epoch": 4.366413805688069,
2351
+ "grad_norm": 4.140297889709473,
2352
+ "learning_rate": 6.335861943119314e-06,
2353
+ "loss": 1.3338,
2354
+ "step": 167500
2355
+ },
2356
+ {
2357
+ "epoch": 4.379447876749824,
2358
+ "grad_norm": 3.1667165756225586,
2359
+ "learning_rate": 6.2055212325017595e-06,
2360
+ "loss": 1.3658,
2361
+ "step": 168000
2362
+ },
2363
+ {
2364
+ "epoch": 4.3924819478115795,
2365
+ "grad_norm": 4.982083797454834,
2366
+ "learning_rate": 6.075180521884206e-06,
2367
+ "loss": 1.3098,
2368
+ "step": 168500
2369
+ },
2370
+ {
2371
+ "epoch": 4.405516018873335,
2372
+ "grad_norm": 19.951147079467773,
2373
+ "learning_rate": 5.944839811266651e-06,
2374
+ "loss": 1.315,
2375
+ "step": 169000
2376
+ },
2377
+ {
2378
+ "epoch": 4.41855008993509,
2379
+ "grad_norm": 5.146533489227295,
2380
+ "learning_rate": 5.814499100649097e-06,
2381
+ "loss": 1.3322,
2382
+ "step": 169500
2383
+ },
2384
+ {
2385
+ "epoch": 4.431584160996846,
2386
+ "grad_norm": 4.29327917098999,
2387
+ "learning_rate": 5.684158390031543e-06,
2388
+ "loss": 1.3165,
2389
+ "step": 170000
2390
+ },
2391
+ {
2392
+ "epoch": 4.444618232058601,
2393
+ "grad_norm": 4.86635160446167,
2394
+ "learning_rate": 5.5538176794139886e-06,
2395
+ "loss": 1.3266,
2396
+ "step": 170500
2397
+ },
2398
+ {
2399
+ "epoch": 4.457652303120357,
2400
+ "grad_norm": 5.066024303436279,
2401
+ "learning_rate": 5.423476968796435e-06,
2402
+ "loss": 1.3201,
2403
+ "step": 171000
2404
+ },
2405
+ {
2406
+ "epoch": 4.470686374182112,
2407
+ "grad_norm": 5.111464500427246,
2408
+ "learning_rate": 5.293136258178879e-06,
2409
+ "loss": 1.3188,
2410
+ "step": 171500
2411
+ },
2412
+ {
2413
+ "epoch": 4.4837204452438675,
2414
+ "grad_norm": 4.428502082824707,
2415
+ "learning_rate": 5.162795547561325e-06,
2416
+ "loss": 1.3162,
2417
+ "step": 172000
2418
+ },
2419
+ {
2420
+ "epoch": 4.496754516305623,
2421
+ "grad_norm": 2.84608793258667,
2422
+ "learning_rate": 5.0324548369437715e-06,
2423
+ "loss": 1.3052,
2424
+ "step": 172500
2425
+ },
2426
+ {
2427
+ "epoch": 4.509788587367378,
2428
+ "grad_norm": 4.425991058349609,
2429
+ "learning_rate": 4.902114126326217e-06,
2430
+ "loss": 1.3252,
2431
+ "step": 173000
2432
+ },
2433
+ {
2434
+ "epoch": 4.522822658429134,
2435
+ "grad_norm": 21.735198974609375,
2436
+ "learning_rate": 4.771773415708663e-06,
2437
+ "loss": 1.3333,
2438
+ "step": 173500
2439
+ },
2440
+ {
2441
+ "epoch": 4.535856729490889,
2442
+ "grad_norm": 4.519357204437256,
2443
+ "learning_rate": 4.641432705091108e-06,
2444
+ "loss": 1.3115,
2445
+ "step": 174000
2446
+ },
2447
+ {
2448
+ "epoch": 4.548890800552645,
2449
+ "grad_norm": 25.662084579467773,
2450
+ "learning_rate": 4.511091994473554e-06,
2451
+ "loss": 1.3134,
2452
+ "step": 174500
2453
+ },
2454
+ {
2455
+ "epoch": 4.5619248716144,
2456
+ "grad_norm": 3.4979422092437744,
2457
+ "learning_rate": 4.3807512838560005e-06,
2458
+ "loss": 1.3202,
2459
+ "step": 175000
2460
+ },
2461
+ {
2462
+ "epoch": 4.574958942676155,
2463
+ "grad_norm": 4.444785118103027,
2464
+ "learning_rate": 4.250410573238446e-06,
2465
+ "loss": 1.3174,
2466
+ "step": 175500
2467
+ },
2468
+ {
2469
+ "epoch": 4.587993013737911,
2470
+ "grad_norm": 6.712714672088623,
2471
+ "learning_rate": 4.120069862620891e-06,
2472
+ "loss": 1.3343,
2473
+ "step": 176000
2474
+ },
2475
+ {
2476
+ "epoch": 4.601027084799666,
2477
+ "grad_norm": 4.870098114013672,
2478
+ "learning_rate": 3.9897291520033364e-06,
2479
+ "loss": 1.3312,
2480
+ "step": 176500
2481
+ },
2482
+ {
2483
+ "epoch": 4.614061155861422,
2484
+ "grad_norm": 4.5157928466796875,
2485
+ "learning_rate": 3.859388441385783e-06,
2486
+ "loss": 1.3133,
2487
+ "step": 177000
2488
+ },
2489
+ {
2490
+ "epoch": 4.627095226923177,
2491
+ "grad_norm": 3.297917366027832,
2492
+ "learning_rate": 3.7290477307682287e-06,
2493
+ "loss": 1.34,
2494
+ "step": 177500
2495
+ },
2496
+ {
2497
+ "epoch": 4.640129297984933,
2498
+ "grad_norm": 5.5820698738098145,
2499
+ "learning_rate": 3.598707020150674e-06,
2500
+ "loss": 1.2856,
2501
+ "step": 178000
2502
+ },
2503
+ {
2504
+ "epoch": 4.653163369046688,
2505
+ "grad_norm": 68.55699157714844,
2506
+ "learning_rate": 3.4683663095331198e-06,
2507
+ "loss": 1.3293,
2508
+ "step": 178500
2509
+ },
2510
+ {
2511
+ "epoch": 4.666197440108443,
2512
+ "grad_norm": 4.395013332366943,
2513
+ "learning_rate": 3.338025598915565e-06,
2514
+ "loss": 1.3156,
2515
+ "step": 179000
2516
+ },
2517
+ {
2518
+ "epoch": 4.679231511170199,
2519
+ "grad_norm": 4.131389141082764,
2520
+ "learning_rate": 3.2076848882980112e-06,
2521
+ "loss": 1.3349,
2522
+ "step": 179500
2523
+ },
2524
+ {
2525
+ "epoch": 4.692265582231954,
2526
+ "grad_norm": 3.2444746494293213,
2527
+ "learning_rate": 3.077344177680457e-06,
2528
+ "loss": 1.2882,
2529
+ "step": 180000
2530
+ },
2531
+ {
2532
+ "epoch": 4.70529965329371,
2533
+ "grad_norm": 6.894190788269043,
2534
+ "learning_rate": 2.9470034670629027e-06,
2535
+ "loss": 1.3064,
2536
+ "step": 180500
2537
+ },
2538
+ {
2539
+ "epoch": 4.718333724355465,
2540
+ "grad_norm": 4.13007926940918,
2541
+ "learning_rate": 2.816662756445348e-06,
2542
+ "loss": 1.3319,
2543
+ "step": 181000
2544
+ },
2545
+ {
2546
+ "epoch": 4.731367795417221,
2547
+ "grad_norm": 4.010223388671875,
2548
+ "learning_rate": 2.686322045827794e-06,
2549
+ "loss": 1.3289,
2550
+ "step": 181500
2551
+ },
2552
+ {
2553
+ "epoch": 4.7444018664789755,
2554
+ "grad_norm": 5.212350845336914,
2555
+ "learning_rate": 2.55598133521024e-06,
2556
+ "loss": 1.3052,
2557
+ "step": 182000
2558
+ },
2559
+ {
2560
+ "epoch": 4.757435937540731,
2561
+ "grad_norm": 4.112293243408203,
2562
+ "learning_rate": 2.4256406245926856e-06,
2563
+ "loss": 1.3178,
2564
+ "step": 182500
2565
+ },
2566
+ {
2567
+ "epoch": 4.770470008602487,
2568
+ "grad_norm": 4.711720943450928,
2569
+ "learning_rate": 2.295299913975131e-06,
2570
+ "loss": 1.3017,
2571
+ "step": 183000
2572
+ },
2573
+ {
2574
+ "epoch": 4.783504079664242,
2575
+ "grad_norm": 4.1918439865112305,
2576
+ "learning_rate": 2.1649592033575766e-06,
2577
+ "loss": 1.3368,
2578
+ "step": 183500
2579
+ },
2580
+ {
2581
+ "epoch": 4.796538150725998,
2582
+ "grad_norm": 4.53779411315918,
2583
+ "learning_rate": 2.0346184927400227e-06,
2584
+ "loss": 1.3103,
2585
+ "step": 184000
2586
+ },
2587
+ {
2588
+ "epoch": 4.809572221787754,
2589
+ "grad_norm": 2.9776086807250977,
2590
+ "learning_rate": 1.9042777821224683e-06,
2591
+ "loss": 1.3325,
2592
+ "step": 184500
2593
+ },
2594
+ {
2595
+ "epoch": 4.822606292849509,
2596
+ "grad_norm": 5.410048007965088,
2597
+ "learning_rate": 1.773937071504914e-06,
2598
+ "loss": 1.324,
2599
+ "step": 185000
2600
+ },
2601
+ {
2602
+ "epoch": 4.835640363911264,
2603
+ "grad_norm": 5.260219573974609,
2604
+ "learning_rate": 1.6435963608873595e-06,
2605
+ "loss": 1.3339,
2606
+ "step": 185500
2607
+ },
2608
+ {
2609
+ "epoch": 4.848674434973019,
2610
+ "grad_norm": 5.610768795013428,
2611
+ "learning_rate": 1.5132556502698054e-06,
2612
+ "loss": 1.2985,
2613
+ "step": 186000
2614
+ },
2615
+ {
2616
+ "epoch": 4.861708506034775,
2617
+ "grad_norm": 6.287191390991211,
2618
+ "learning_rate": 1.382914939652251e-06,
2619
+ "loss": 1.2973,
2620
+ "step": 186500
2621
+ },
2622
+ {
2623
+ "epoch": 4.87474257709653,
2624
+ "grad_norm": 32.12895202636719,
2625
+ "learning_rate": 1.2525742290346967e-06,
2626
+ "loss": 1.2914,
2627
+ "step": 187000
2628
+ },
2629
+ {
2630
+ "epoch": 4.887776648158286,
2631
+ "grad_norm": 15.296839714050293,
2632
+ "learning_rate": 1.1222335184171426e-06,
2633
+ "loss": 1.3231,
2634
+ "step": 187500
2635
+ },
2636
+ {
2637
+ "epoch": 4.900810719220042,
2638
+ "grad_norm": 4.650936126708984,
2639
+ "learning_rate": 9.918928077995881e-07,
2640
+ "loss": 1.2902,
2641
+ "step": 188000
2642
+ },
2643
+ {
2644
+ "epoch": 4.9138447902817965,
2645
+ "grad_norm": 25.2452335357666,
2646
+ "learning_rate": 8.615520971820338e-07,
2647
+ "loss": 1.2964,
2648
+ "step": 188500
2649
+ },
2650
+ {
2651
+ "epoch": 4.926878861343552,
2652
+ "grad_norm": 4.3756890296936035,
2653
+ "learning_rate": 7.312113865644796e-07,
2654
+ "loss": 1.3137,
2655
+ "step": 189000
2656
+ },
2657
+ {
2658
+ "epoch": 4.939912932405307,
2659
+ "grad_norm": 32.994510650634766,
2660
+ "learning_rate": 6.008706759469253e-07,
2661
+ "loss": 1.3033,
2662
+ "step": 189500
2663
+ },
2664
+ {
2665
+ "epoch": 4.952947003467063,
2666
+ "grad_norm": 3.0575180053710938,
2667
+ "learning_rate": 4.70529965329371e-07,
2668
+ "loss": 1.2992,
2669
+ "step": 190000
2670
+ },
2671
+ {
2672
+ "epoch": 4.965981074528818,
2673
+ "grad_norm": 4.4134135246276855,
2674
+ "learning_rate": 3.401892547118167e-07,
2675
+ "loss": 1.2839,
2676
+ "step": 190500
2677
+ },
2678
+ {
2679
+ "epoch": 4.979015145590574,
2680
+ "grad_norm": 40.072750091552734,
2681
+ "learning_rate": 2.0984854409426243e-07,
2682
+ "loss": 1.3057,
2683
+ "step": 191000
2684
+ },
2685
+ {
2686
+ "epoch": 4.99204921665233,
2687
+ "grad_norm": 19.755613327026367,
2688
+ "learning_rate": 7.950783347670812e-08,
2689
+ "loss": 1.2946,
2690
+ "step": 191500
2691
+ }
2692
+ ],
2693
+ "logging_steps": 500,
2694
+ "max_steps": 191805,
2695
+ "num_input_tokens_seen": 0,
2696
+ "num_train_epochs": 5,
2697
+ "save_steps": 10000,
2698
+ "stateful_callbacks": {
2699
+ "TrainerControl": {
2700
+ "args": {
2701
+ "should_epoch_stop": false,
2702
+ "should_evaluate": false,
2703
+ "should_log": false,
2704
+ "should_save": true,
2705
+ "should_training_stop": true
2706
+ },
2707
+ "attributes": {}
2708
+ }
2709
+ },
2710
+ "total_flos": 4.066567392204288e+17,
2711
+ "train_batch_size": 8,
2712
+ "trial_name": null,
2713
+ "trial_params": null
2714
+ }
model/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:aec5971235f76a8610523222de9ddee0d686c6eb9f7b7fd0ae1dc29c6d6dec38
3
+ size 5304
tokenizer/special_tokens_map.json ADDED
@@ -0,0 +1,11 @@
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "unk_token": "[UNK]",
3
+ "sep_token": "[SEP]",
4
+ "pad_token": "[PAD]",
5
+ "cls_token": "[CLS]",
6
+ "mask_token": "[MASK]",
7
+ "additional_special_tokens": [
8
+ "[BOF]",
9
+ "[EOF]"
10
+ ]
11
+ }
tokenizer/tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer/tokenizer_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "do_lower_case": false,
3
+ "model_max_length": 512
4
+ }
tokenizer/vocab.txt ADDED
The diff for this file is too large to render. See raw diff