Publikation

Why Deep Transformers are Difficult to Converge? From Computation Order to Lipschitz Restricted Parameter Initialization

Josef van Genabith; Hongfei Xu; Qiuhui Liz; Jingyi Zhang

keine Angabe.

Zusammenfassung

..

Deutsches Forschungszentrum für Künstliche Intelligenz
German Research Center for Artificial Intelligence