多模态融合技术使AI能同时处理文本、图像、音频、视频、传感器数据等多类型信息,并通过跨模态关联实现更接近人类认知的综合决策。其核心价值在于突破单模态信息孤岛,例如医生通过CT影像(视觉)+ 基因报告(文本)+ 心电图波形(时序数据)综合诊断疾病。 1、技术演进里程碑 单模态时代(2000年前):独立发展的OCR文字识别、语音识别技术 早期融合尝试(2010s):视频网站弹幕与画面时间轴对齐技术 深度学习突破(2020s):CLIP模型实现图文跨模态检索,准确率提升40% 大模型时代(2024-2…
本文旨在帮助不懂技术的朋友轻松搞懂Transformer 模型架构和思想,所以不含代码,纯讲解。 前言 Transformer模型之所以被称为“Transformer”,是因为它的核心功能是对输入数据的矩阵进行变换处理。(哈哈,目前没有中文名,不是变形金刚也不是翻译) 这种变换是通过计算矩阵内部各个向量之间的关系来实现的,目的是去除无效信息并加强有效信息。在这个过程中,组成矩阵的向量的值会发生变化,但形状保持不变。这样的变换使得模型能够更好地解决最终数学问题,计算最优解。 大模型爆红,一方面给互…
摘要 基于分割的场景文字检测方法往往更准确,特别是针对卷曲的文字,在使用基于分割的方法时,二值化的后处理非常重要。作者提出了Differentiable Binarization模块,不仅简化了二值化方法而且效果更好。 介绍 由于场景文字的大小形状的多样,使用基于分割的检测方法往往更好,但是大部分基于分割的方法需要复杂的后处理将像素级别的结果组合成文字行,在预测时开销往往很大。例如PSENet使用连续尺度扩张的方式后处理;LSAE计算像素之间的特征距离来聚类。 大部分检测模型用上图的方式做后处理…
文字识别也是图像领域一个常见问题。然而,对于自然场景图像,首先要定位图像中的文字位置,然后才能进行识别。 所以一般来说,从自然场景图片中进行文字识别,需要包括2个步骤: 文字检测:解决的问题是哪里有文字,文字的范围有多少 文字识别:对定位好的文字区域进行识别,主要解决的问题是每个文字是什么,将图像中的文字区域进转化为字符信息。 文字检测类似于目标检测,即用 box 标识出图像中所有文字位置。对于文字检测不了解的读者,请参考本专栏文章:场景文字检测—CTPN原理与实现zhuanlan.zhihu…