Meta刚开源llama 3.2多模态,就被打败了!

发布于 2024-9-29 13:05
浏览
0收藏

2个系列:

  • 多模态:Llama 3.2 11B 和 90B,支持视觉多模态,LLama终于有了眼睛!
  • 端侧小模型:LLama 3.2 1B 和 3B

对于新增的多模态模型,只新增了图像编码器,将其集成到预训练模型中,没有更新语言模型参数,即插即用!

对于 Llama 3.2 中的 1B 和 3B 模型,直接使用8B、70B的logits蒸馏,比较常见的蒸馏方式,就是废卡。

Meta刚开源llama 3.2多模态,就被打败了!-AI.x社区图片

虽然 LLama 系列终于有了视觉。但是,今天 allenai 开源了多模态 Molmo 72B 和 7B 模型。并且在视觉方面的表现全面超过了 3.2,太卷了~

Meta刚开源llama 3.2多模态,就被打败了!-AI.x社区

Meta刚开源llama 3.2多模态,就被打败了!-AI.x社区

下表是目前知名多模态模型的横向对比,可能存在错误(claude生成的~)

Benchmark

Molmo-72B

Molmo-7B-D

Molmo-7B-O

MolmoE-1B

Llama 3.2 11B

Llama 3.2 90B

Qwen-VL-72B

GPT-4o

Claude-3.5 Sonnet

Qwen2-VL-7B

GPT-4o-mini

InternVL2-8B

MiniCPM-V 2.6















AI2D

96.3

93.2

90.7

86.4

62.4

75.3

-

-

-

-

-

-

-

ChartQA

87.3

84.1

80.4

78.0

83.4

85.5

88.3

85.7

90.8

83.0

-

83.3

-

VQAv2

86.5

85.6

85.3

83.9

75.2

78.1

-

-

-

-

-

-

-

DocVQA

93.5

92.2

90.8

77.7

88.4

90.1

96.5

92.8

95.2

94.5

-

91.6

90.8

InfoVQA

81.9

72.6

70.0

53.9

43.2

56.8

84.5

-

-

76.5

-

74.8

-

TextVQA

83.1

81.7

80.4

78.8

73.1

73.5

85.5

-

-

84.3

-

77.4

80.1

RealWorldQA

75.2

70.7

67.5

60.4

N/A

N/A

77.8

75.4

60.1

70.1

-

64.4

-

MMMU

54.1

45.3

39.3

34.9

41.7

49.3

64.5

69.1

68.3

54.1

60.0

51.8

49.8

MathVista

58.6

51.6

44.5

34.0

51.5

57.3

70.5

63.8

67.7

58.2

52.4

58.3

60.6

OCRBench

-

-

-

-

-

-

877

736

788

845

785

794

852

MTVQA

-

-

-

-

-

-

30.9

27.8

25.7

26.3

-

-

-

VCR_un easy

-

-

-

-

-

-

91.93

91.55

63.85

89.70

83.60

-

73.88

MMBench-EN

-

-

-

-

-

-

86.5

83.4

79.7

83.0

-

81.7

-

MMStar

-

-

-

-

-

-

68.3

63.9

62.2

60.7

54.8

61.5

57.5

HallBench

-

-

-

-

-

-

58.1

55.0

49.9

50.6

46.1

45.2

48.1

Video-MME

-

-

-

-

-

-

71.2/77.8

71.9/71.2

75.0/81.3

63.3/69.0

-

54.0/56.9

60.9/63.6

本文转载自 NLP前沿​,作者: 热爱AI的

收藏
回复
举报
回复
相关推荐