Já estão disponíveis as interfaces para acesso aos dois novos modelos de base multimodal da H2O.ai, projetados especificamente para casos de uso de OCR e IA em documentos. A norte-americana H2O.ai é especializada em IA Generativa de código aberto e em plataformas de IA Preditiva. Chamados de H2OVL Mississippi 2B e 0.8B, os dois novos modelos estão disponíveis gratuitamente na plataforma de colaboração Hugging Face. Segundo a empresa, o Mississippi 0.8B supera os principais modelos de linguagem de visão pequena (SVLMs) e “de forma impressionante” os modelos de linguagem de visão de última geração (VLMs) em benchmarks de OCR para reconhecimento de texto. O modelo traz para as empresas uma solução econômica com eficiência e precisão para análise de documentos e reconhecimento de imagens em tempo real, afirma a H2O.
H2OVL Mississipi 2B https://huggingface.co/h2oai/h2ovl-mississippi-2b
H2OVL Mississipi 0,8B https://huggingface.co/h2oai/h2ovl-mississippi-800m
Leia também
I.A. será a tecnologia mais importante de 2025, diz o IEEE
Ferramenta de I.A. já localiza zero-days no código
A decisão da H2O.ai de lançar a série de modelos de peso aberto H2OVL despertou interesse significativo na comunidade de IA. Ao tornar o modelo livremente acessível no Hugging Face, desenvolvedores, pesquisadores e empresas agora podem modificar, ajustar e adaptar os modelos H2OVL Mississippi para atender às suas necessidades específicas de OCR e Document AI.
O H2OVL Mississippi 2B se baseia no legado do H2O Danube2 com um modelo robusto de 2,1 bilhões de parâmetros otimizado para implantação leve e arquitetura multimodal especializada que combina linguagem e visão computacional para atender à crescente demanda por OCR multimodal mais econômico. Pré-treinado em 5,3 milhões de pares de conversação e ajustado com mais 12 milhões de pares, o H2OVL Mississippi 2B se destaca no manuseio de diversas resoluções de imagem, variando de 448px a 4K.
Construído no Danube3 0.5B, o modelo H2OVL Mississippi 0.8B — pré-treinado em 11 milhões de pares de conversação e ajustado com mais 8 milhões — superou todos os SLMs comparáveis no mercado em benchmarks de OCR, oferecendo desempenho incomparável em reconhecimento de texto.
“Nós projetamos os modelos H2OVL Mississippi para serem uma solução de alto desempenho, mas econômica, trazendo OCR com tecnologia de IA, compreensão visual e Document AI para empresas”, disse Sri Ambati, CEO e Fundador da H2O.ai. “Ao misturar IA multimodal de última geração com extrema eficiência, a H2OVL Mississippi fornece soluções precisas e escaláveis de Document AI em uma variedade de setores.”