Stat 214 — Lab 3.2 LoRA Fine-Tuning Guide

import pickle, torch, torch.optim as optim
from torch.utils.data import Dataset, DataLoader
from transformers import (BertTokenizerFast, BertForMaskedLM,
                          DataCollatorForLanguageModeling)
from peft import LoraConfig, get_peft_model

# --- Data ---
tokenizer = BertTokenizerFast.from_pretrained("bert-base-uncased")
with open('raw_text.pkl', 'rb') as f:
    raw_text = pickle.load(f)

story_texts = []
for name, seq in raw_text.items():
    words = [str(w) for w in seq.data if isinstance(w, str)]
    story_texts.append(" ".join(words))

class StoryMLMDataset(Dataset):
    def __init__(self, texts, tokenizer, max_length=512, stride=256):
        self.examples = []
        for text in texts:
            ids = tokenizer(text, truncation=False)["input_ids"]
            for start in range(0, len(ids), stride):
                chunk = ids[start:start+max_length]
                if len(chunk) >= 32:
                    self.examples.append(torch.tensor(chunk))
    def __len__(self): return len(self.examples)
    def __getitem__(self, idx): return {"input_ids": self.examples[idx]}

dataset = StoryMLMDataset(story_texts, tokenizer)
collator = DataCollatorForLanguageModeling(tokenizer=tokenizer,
                                            mlm=True, mlm_probability=0.15)
dataloader = DataLoader(dataset, batch_size=8, shuffle=True,
                        collate_fn=collator)

# --- Model + LoRA ---
mlm_model = BertForMaskedLM.from_pretrained("bert-base-uncased")
lora_config = LoraConfig(
    r=8, lora_alpha=16, lora_dropout=0.1,
    target_modules=["query", "value"]
)
lora_model = get_peft_model(mlm_model, lora_config)
lora_model.print_trainable_parameters()

# --- Train ---
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
lora_model.to(device)
lora_model.train()
optimizer = optim.AdamW(lora_model.parameters(), lr=2e-4)

for epoch in range(3):
    total_loss, n = 0, 0
    for batch in dataloader:
        batch = {k: v.to(device) for k, v in batch.items()}
        loss = lora_model(**batch).loss
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()
        total_loss += loss.item()
        n += 1
    print(f"Epoch {epoch+1}, Loss: {total_loss/n:.4f}")
    # Expected: starts ~2.5-3.5, drops to ~2.0-2.5. Below 1.5 = overfitting.

lora_model.save_pretrained("lora_adapter_r8")

Parameter	What it controls	Start with	Explore
Rank ($r$)	Capacity of the adaptation	8	4, 8, 16
Scaling ($\gamma$, `lora_alpha`)	Update magnitude. Effective rate scales as $\gamma / r$	$2r$	$r$ to $2r$
Target modules	Which attention weights get adapters	query + value	Try adding key
Learning rate	Optimizer step size	$2 \times 10^{-4}$	$10^{-4}$ to $5 \times 10^{-4}$
Epochs	Passes over the data	3	3–5
Window stride	Overlap between training chunks	256	128–384

Lab 3.2 — LoRA Fine-Tuning Guide

What 3.2 asks you to do

Part 1: Extracting BERT embeddings

Handling long stories (512-token limit)

Part 2: What LoRA does

Part 3: Fine-tuning with LoRA

Part 4: Extracting embeddings from the fine-tuned model

Hyperparameters to explore

Questions to address in the report

Common pitfalls