CS388: Natural Language Processing Lecture 19: Pretrained ...gdurrett/courses/fa2019/... ·...

CS388:NaturalLanguageProcessing

GregDurre8

Lecture19:PretrainedTransformers

Credit:???

Administrivia

‣ Project2dueTuesday

‣ PresentaEondayannouncementsnextweek

Recall:Self-A8enEon

Vaswanietal.(2017)

themoviewasgreat

‣ Eachwordformsa“query”whichthencomputesa8enEonovereachword

‣MulEple“heads”analogoustodifferentconvoluEonalfilters.UseparametersWkandVktogetdifferenta8enEonvalues+transformvectors

scalar

vector=sumofscalar*vector

↵i,j = softmax(x>i xj)

↵i,jxj

↵k,i,j = softmax(x>i Wkxj) x0

k,i =nX

↵k,i,jVkxj

Recall:Transformers

Vaswanietal.(2017)

themoviewasgreat

‣ AugmentwordembeddingwithposiEonembeddings,eachdimisasine/cosinewaveofadifferentfrequency.Closerpoints=higherdotproducts

‣WorksessenEallyaswellasjustencodingposiEonasaone-hotvector

themoviewasgreat

emb(1)

emb(2)

emb(3)

emb(4)

ThisLecture

‣ GPT/GPT2

‣ Analysis/VisualizaEon

‣ BERT

‣ ThreemajorchangescomparedtoELMo:

‣ TransformersinsteadofLSTMs(transformersinGPTaswell)‣ BidirecEonal<=>MaskedLMobjecEveinsteadofstandardLM‣ Fine-tuneinsteadoffreezeattestEme

‣ AI2madeELMoinspring2018,GPTwasreleasedinsummer2018,BERTcameoutOctober2018

Devlinetal.(2019)

‣ ELMoisaunidirecEonalmodel(asisGPT):wecanconcatenatetwounidirecEonalmodels,butisthistherightthingtodo?

Astunningballetdancer,Copelandisoneofthebestperformerstoseelive.

ELMo“performer”

“balletdancer”

“balletdancer/performer”

‣ ELMoreprslookateachdirecEoninisolaEon;BERTlooksatthemjointly

BERT‣ Howtolearna“deeplybidirecEonal”model?WhathappensifwejustreplaceanLSTMwithatransformer?

JohnvisitedMadagascaryesterday

visited Madag. yesterday …

‣ TransformerLMshavetobe“one-sided”(onlya8endtoprevioustokens),notwhatwewant

ELMo(LanguageModeling)visited Madag. yesterday …

MaskedLanguageModeling‣ HowtopreventcheaEng?NextwordpredicEonfundamentallydoesn'tworkforbidirecEonalmodels,insteaddomaskedlanguagemodeling

Johnvisited[MASK]yesterday

Madagascar‣ BERTformula:takeachunkoftext,predict15%ofthetokens

‣ For80%(ofthe15%),replacetheinputtokenwith[MASK]

Devlinetal.(2019)

‣ For10%,replacew/random‣ For10%,keepsame

Johnvisitedofyesterday

Next“Sentence”PredicEon‣ Input:[CLS]Textchunk1[SEP]Textchunk2

[CLS]Johnvisited[MASK]yesterdayandreallyallit[SEP]IlikeMadonna.

Madagascar

Devlinetal.(2019)

Transformer

enjoyed likeNotNext

‣ BERTobjecEve:maskedLM+nextsentencepredicEon

‣ 50%oftheEme,takethetruenextchunkoftext,50%oftheEmetakearandomotherchunk.Predictwhetherthenextchunkisthe“true”next

BERTArchitecture‣ BERTBase:12layers,768-dimperwordpiecetoken,12heads.Totalparams=110M

Devlinetal.(2019)

‣ BERTLarge:24layers,1024-dimperwordpiecetoken,16heads.Totalparams=340M

‣ PosiEonalembeddingsandsegmentembeddings,30kwordpieces

‣ Thisisthemodelthatgetspre-trainedonalargecorpus

WhatcanBERTdo?

Devlinetal.(2019)

‣ CLStokenisusedtoprovideclassificaEondecisions

‣ BERTcanalsodotaggingbypredicEngtagsateachwordpiece‣ Sentencepairtasks(entailment):feedbothsentencesintoBERT

WhatcanBERTdo?

‣ HowdoesBERTmodelthissentencepairstuff?

‣ TransformerscancaptureinteracEonsbetweenthetwosentences,eventhoughtheNSPobjecEvedoesn’treallycausethistohappen

Transformer

[CLS]Aboyplaysinthesnow[SEP]Aboyisoutside

Entails

WhatcanBERTNOTdo?

‣ BERTcannotgeneratetext(atleastnotinanobviousway)

‣ Notanautoregressivemodel,candoweirdthingslikesEcka[MASK]attheendofastring,fillinthemask,andrepeat

‣Maskedlanguagemodelsareintendedtobeusedprimarilyfor“analysis”tasks

Fine-tuningBERT‣ Fine-tunefor1-3epochs,batchsize2-32,learningrate2e-5-5e-5

‣ Largechangestoweightsuphere(parEcularlyinlastlayertoroutetherightinformaEonto[CLS])

‣ Smallerchangestoweightslowerdowninthetransformer

‣ SmallLRandshortfine-tuningschedulemeanweightsdon’tchangemuch

‣Morecomplex“triangularlearningrate”schemesexist

Fine-tuningBERT

Peters,Ruder,Smith(2019)

‣ BERTistypicallybe8erifthewholenetworkisfine-tuned,unlikeELMo

EvaluaEon:GLUE

Wangetal.(2019)

Results

Devlinetal.(2018)

‣ Hugeimprovementsoverpriorwork(evencomparedtoELMo)

‣ EffecEveat“sentencepair”tasks:textualentailment(doessentenceAimplysentenceB),paraphrasedetecEon

RoBERTa

Liuetal.(2019)

‣ “RobustlyopEmizedBERT”

‣ 160GBofdatainsteadof16GB

‣ Dynamicmasking:standardBERTusesthesameMASKschemeforeveryepoch,RoBERTarecomputesthem

‣ Newtraining+moredata=be8erperformance

GPT/GPT2

OpenAIGPT/GPT2

‣ GPT2:trainedon40GBoftextcollectedfromupvotedlinksfromreddit

‣ 1.5Bparameters—byfarthelargestofthesemodelstrainedasofMarch2019

Radfordetal.(2019)

‣ “ELMowithtransformers”(worksbe8erthanELMo)

‣ TrainasingleunidirecEonaltransformerLMonlongcontexts

‣ Becauseit'salanguagemodel,wecangeneratefromit

OpenAIGPT2

slidecredit:OpenAI

OpenQuesEons

3)HowdoweharnessthesepriorsforcondiEonalgeneraEontasks(summarizaEon,generateareportofabasketballgame,etc.)

4)Isthistechnologydangerous?(OpenAIhasonlyreleased774Mparammodel,not1.5Byet)

1)Hownovelisthestuffbeinggenerated?(Isitjustdoingnearestneighborsonalargecorpus?)

2)HowdoweunderstandanddisEllwhatislearnedinthismodel?

Grover‣ SamplefromalargelanguagemodelcondiEonedonadomain,date,authors,andheadline

Zellersetal.(2019)

‣ HumansrankGrover-generatedpropagandaasmorerealisEcthanreal“fakenews”

‣ NOTE:NotaGAN,discriminatortrainedseparatelyfromthegenerator

‣ Fine-tunedGrovercandetectGroverpropagandaeasily—authorsargueforreleasingitforthisreason

Pre-TrainingCost(withGoogle/AWS)

h8ps://syncedreview.com/2019/06/27/the-staggering-cost-of-training-sota-ai-models/

‣ XLNet(BERTvariant):$30,000—$60,000(unclear)

‣ Grover-MEGA:$25,000

‣ BERT:Base$500,Large$7000

‣ Thisisforasinglepre-trainingrun…developingnewpre-trainingtechniquesmayrequiremanyruns

‣ Fine-tuningthesemodelscantypicallybedonewithasingleGPU(butmaytake1-3daysformedium-sizeddatasets)

PushingtheLimits

‣ NVIDIA:trained8.3BparameterGPTmodel(5.6xthesizeofGPT-2)

NVIDIAblog(Narasimhan,August2019)

‣ ArguablethesemodelsaresEllunderfit:largermodelssEllgetbe8erheld-outperplexiEes

GoogleT5

Raffeletal.(October23,2019)

‣WesEllhaven'thitthelimitofbiggerdatabeinguseful

‣ ColossalCleanedCommonCrawl:750GBoftext

Lewisetal.(October30,2019)

‣ Sequence-to-sequenceBERTvariant:permute/make/deletetokens,thenpredictfullsequenceautoregressively

‣ Fordownstreamtasks:feeddocumentintobothencoder+decoder,usedecoderhiddenstateasoutput

‣ Goodresultsondialogue,summarizaEontasks

Analysis

WhatdoesBERTlearn?

Clarketal.(2019)

‣ HeadsontransformerslearninteresEnganddiversethings:contentheads(a8endbasedoncontent),posiEonalheads(basedonposiEon),etc.

WhatdoesBERTlearn?

Clarketal.(2019)

‣ SEllwayworsethanwhatsupervisedsystemscando,butinteresEngthatthisislearnedorganically

ProbingBERT

Tenneyetal.(2019)

‣ TrytopredictPOS,etc.fromeachlayer.Learnmixingweights

representaEonofwordpieceifortaskτ

‣ Plotshowssweights(blue)andperformancedeltaswhenanaddiEonallayerisincorporated(purple)

‣ BERT“rediscoverstheclassicalNLPpipeline”:firstsyntacEctasksthensemanEcones

CompressingBERT

Micheletal.(2019)

‣ Remove60+%ofBERT’sheadswithminimaldropinperformance

‣ DisElBERT(Sanhetal.,2019):nearlyasgoodwithhalftheparametersofBERT(viaknowledgedisEllaEon)

OpenQuesEons

‣ Thesetechniquesareheretostay,unclearwhatformwillwinout

‣ Roleofacademiavs.industry:nomajorpretrainedmodelhascomepurelyfromacademia

‣ BERT-basedsystemsarestate-of-the-artfornearlyeverymajortextanalysistask

‣ Cost/carbonfootprint:asinglemodelcosts$10,000+totrain(thoughthiscostshouldcomedown)

CS388: Natural Language Processing Lecture 19: Pretrained ...gdurrett/courses/fa2019/... ·...

Documents

Asset Management through Transformer Monitoring.ppt · • Transformer materials • Thermal aspects of transformer life ... Winding E Total Number of Transformer Through Faults:

Fire Inspector Preparation Guideecampus.matc.edu/firetraining/Library/FA2019/FireInspector-PrepGui… · Qualifications for Fire Inspector and Plan Examiner (hereafter referred to

Power transformer maintenance. Field testing.Power transformer is

Electronics/Transformer Designdocshare01.docshare.tips/files/13205/132059141.pdfElectronics/Transformer Design 1 Electronics/Transformer Design Single phase transformer. ... all of

MathematicsforPhysics - University Of Illinois › phys508 › fa2019 › bookmaster.pdf · well as basic ordinary diﬀerential equation theory, receive a quick review, but it would

4 6 Transformer Installation & Relocation Transformer

Instrument Transformer Basics - WMEAwmea.net/Technical Papers/Instrument Transformer Basics.pdf · Instrument Transformer Basics What is an Instrument Transformer? Current Transformer

Topic 1 : Magnetic Concept and Transformer Magnetism Magnetic Circuit Transformer Construction Transformer equivalent circuit Transformer test, efficiency

2.Potencial Transformer and Current Transformer

Electrical Machines LSEGG216A 9080V. Content of Course Transformer Construction Transformer Operation Transformer Losses, Efficiency & Cooling Transformer

Jordan Transformer Mobile Transformer References Transformer...Jordan Transformer Mobile Transformer References 14 MVA 69 - 13.2Y Westinghouse with new Reinhausen LTC ... 44.5 MVA

Administrivia CS388: Natural Language Processing Lecture ...gdurrett/courses/fa2019/lectures/lec25-4pp.pdf · ‣Many languages used all over the world have much richer morphology

Administrivia CS388: Natural Language Processing Lecture 7 ...gdurrett/courses/fa2019/lectures/lec7-4pp.pdf · CS388: Natural Language Processing Greg Durre8 Lecture 7: Word Embeddings

CHiNT - Current Transformer & Potential Transformer

Transformer,Current Transformer & Potential Transformer

Unit-3 Transformer Transformer Voltage regulation, losses

TRANSFORMER USER MANUAL - Amazon S3...TRANSFORMER USER MANUAL FSV1101 Transformer 720p display FSV1102 Transformer Binocular Viewer FSV1103 Transformer Full Panel Viewer Revision B

Transformer Efficiency Testing and Transformer Vector Theory

Software and licencesceflasupport.com/data/media/product_documentation/newtom/5g_xl… · trasformatore tor002 transformer tor002 transformer tor002 transformer tor002 transformer

Generator Transformer & Unit Auxiliary Transformer Installation 070903