Edit Models filters

Multimodal

Image-Text-to-Text

Document Question Answering

Computer Vision

Image Classification

Image Segmentation

Object Detection

Zero-Shot Image Classification

Image Feature Extraction

Depth Estimation

Mask Generation

Zero-Shot Object Detection

Natural Language Processing

Feature Extraction

Text Generation

Text Classification

Text2Text Generation

Token Classification

Sentence Similarity

Zero-Shot Classification

Question Answering

Audio

Automatic Speech Recognition

Audio Classification

Tasks with no match

Multimodal

Visual Question Answering

Computer Vision

Unconditional Image Generation

Video Classification

Natural Language Processing

Table Question Answering

Audio

Voice Activity Detection

Tabular

Tabular Classification

Tabular Regression

Reinforcement Learning

Reinforcement Learning

Other

Graph Machine Learning

Models

1

Full-text search

Active filters: document-question-answering, transformers.js

Xenova/donut-base-finetuned-docvqa

Document Question Answering • Updated Mar 18 • 7 • 4