Upload SpanExtractBERT model

Browse files

Files changed (2) hide show

models/spanextractbert/README.md +79 -0
models/spanextractbert/pytorch_model.bin +3 -0

models/spanextractbert/README.md ADDED Viewed

	@@ -0,0 +1,79 @@

+---
+license: apache-2.0
+tags:
+  - document-extraction
+  - span-prediction
+  - pytorch
+datasets:
+  - bluecopa/smalldocs-jsonextract
+language:
+  - en
+---
+# SpanExtractBERT
+This model is part of the SpanExtractBERT document extraction experiments.
+## Model Description
+SpanExtractBERT is trained for structured document extraction using span prediction.
+It extracts field values from documents by predicting start and end positions.
+## Training Data
+Trained on [bluecopa/smalldocs-jsonextract](https://huggingface.co/datasets/bluecopa/smalldocs-jsonextract):
+- 78,290 examples from 1,593 documents
+- Document types: invoices, receipts
+- ~80% span extractions, ~20% NULL predictions
+## Results
+| Metric | Value |
+|--------|-------|
+| Exact Match | 0.0% |
+| Span F1 | 1.8% |
+| NULL F1 | 0.0% |
+## Usage
+```python
+import torch
+from transformers import AutoTokenizer
+# Load model
+model = torch.load("pytorch_model.bin")
+tokenizer = AutoTokenizer.from_pretrained("answerdotai/ModernBERT-base")
+# Inference
+doc_text = "Invoice #12345..."
+query = "What is the invoice number?"
+# Tokenize and predict
+inputs = tokenizer(doc_text, return_tensors="pt")
+query_inputs = tokenizer(query, return_tensors="pt")
+with torch.no_grad():
+    start_logits, end_logits = model(
+        inputs["input_ids"],
+        inputs["attention_mask"],
+        query_inputs["input_ids"],
+        query_inputs["attention_mask"]
+    )
+start_idx = start_logits.argmax(-1).item()
+end_idx = end_logits.argmax(-1).item()
+# Decode answer
+answer = tokenizer.decode(inputs["input_ids"][0, start_idx:end_idx+1])
+```
+## Citation
+```bibtex
+@article{spanextractbert2025,
+  title={SpanExtractBERT: High-Velocity Document Extraction via Query-Conditioned Encoders},
+  year={2025}
+}
+```

models/spanextractbert/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa6033da49846b60fee496135721148d0592f2f748456ca89b51044c5fedd941
+size 615016031