用 streamlit 和 phidata 测试了一下 Gemini 2.0 ,对图像的识别挺强的。

应该是将视频转换为图片来处理的,对中文的识别也挺准确,生成的结果也挺准确,逻辑性也很强。但是视频长度比较长的,可能超过了 API 的限制,无法生成结果。

视频 PKM 准备就用 Gemini 2.0 了 #22

gemini