World Agents —— 解决方案

image

云边端架构

我们采用高效的云边端结合的架构,将来自OpenAI、Claude的大参数量的自回归语言模型(LLM)、视觉理解模型(LVM)部署在云端,高效的小参数模型如YOLO V11、Open Pose、Open CV部署在边侧(手机)与端侧(AI 硬件),将三者进行深度整合。这种整合不仅提升了Agent的智能程度,也最大化了Agent 的反应速度,让Agent在物理世界中的具备五感, 对环境做出实时的反馈,自主响应,极大的降低了智能体的交互门槛。

传感器:五感俱全

Agent 具备眼睛(高清摄像头),耳朵(灵敏麦克风),嘴巴(精准扬声器)小脑(加速度传感器,磁罗盘)等传感器,具备对真实物理世界的感知能力。

端侧小模型:快速响应

小参数量的模型,如YOLO V11、Open Pose、Open CV等算法的运用,使得设备能够快速、准确地进行物体检测、人脸识别与视觉识别,为用户带来即时的智能反馈。

云端大模型:决策引擎

云端大模型通过模型部署、视觉理解、语音识别ASR、视觉记忆、TTS等技术,构建智能交互新纪元。CoT、RL:Q Learning技术的应用,为设备提供了深度规划、推理、工具使用与协作能力,使得智能设备能够进行复杂的决策和学习。

存算训一体:数据驱动,智能优化

我们的解决方案采用了存算训一体的先进架构,利用向量数据库(Vector DB)进行高效存储,保障了数据处理的高速度和高精度。在训练方面,我们采用了强化学习后的再训练(Post Training)技术,通过不断的学习与优化,提升模型的智能水平。

一站式解决方案:智慧融合,体验升级

我们的技术架构,将端侧的实时处理与云端的智能分析完美结合,打造全方位、高效率、智能化的多模态智能体验。用户可以根据自己的需求,定制具备五感的智能体设备,实现个性化的智能生活。

核心参数

特性描述
感知能力视觉、听觉、加速度传感器、扬声器
响应时间3-5秒
待机时间8小时
连续拍摄时间90分钟
功能(Agent核心)#
语音唤醒支持
蓝牙支持
Wi-Fi支持
思维链设定支持
工具使用支持
长短期记忆支持
端侧小模型部署#
表情识别支持
姿势识别支持
人脸检测支持
路线规划支持
自动检测分割支持
视频拍摄能力4K,60帧高清拍摄
尺寸和重量30mm*30mm,42g

主控芯片介绍:

iCatch V39A 摄像头芯片 4K摄像头主控芯片 台湾凌阳 Sunplus

  • SOC/DSP/IC/CPU 型号 iCatch V39A
  • CPU 架构 Arm Cortex-A7 CPU,频率高达 720MHz
  • 运行内存 16-bits DRAM 内置 2GB DDR
  • 图像 sensor 接口 MIPI, LVDS
  • 图像引擎 ISP iCatch 自研 ISP 引擎
  • 视频编码 H.264/MJPEG
  • 显示屏接口 BT.601/656/1120 digital, i80/M68 interface
  • 音频接口 支持内置数字硅麦输入和 I2S 的外围音频 IC
  • 储存接口 SD/SDHC/SDXC, MMC, and eMMC4.5/5.0 interfaces
  • USB 接口 USB 2.0 device and host
  • HDMI 接口 内置 HDMI 接口
  • 封装尺寸 V39A LF BGA 353, 14 mm x 14 mm x 1.4 mm
image
image
image

         iCatch V39A是一种高度集成的片上系统解决方案,可以实现各种高端4K成像应用,并具有边缘计算能力。V39A可以通过iCatch的第7代图像信号处理器(ISP)和H.264高性能编码器捕获令人惊叹的4Kp30视频。

         V39A支持多种传感器接口,最多可同时连接两个传感器,最大原始图像数据速率为9600万像素/秒。它可以支持用于安全应用的RGB-IR传感器。其H.264视频编码器可以同时生成多个比特流,用于设备存储和空中传输。V39A还嵌入了许多接口,以支持数字麦克风输入、MIPI DSI输出和HDMI输出,从而将系统BOM成本降至最低,并最大限度地提高设计灵活性。为了连接,V39A配备了GMAC,带有用于以太网的RGMII,用于4G/LTE调制解调器的USB主机接口,以及用于WiFi的独立SDIO接口。

图像传感器接口

  • 10通道VDS、HiSPI和MIPI CSI2串行接口
  • 双传感器输入
  • 分辨率高达42M像素的CMOS传感器

先进的图像处理

  • 原始数据捕获速度高达960M像素/秒
  • 像素处理速度高达280M像素/秒
  • 运动补偿时间噪声的视频滤波
  • 实时多帧HDR视频
  • 实时多轴电子稳像(EIS)
  • 实时多段滚动shutier校正(RSC)
  • 先进的原始噪声和高iso降噪技术
  • 镜头失真校正(LDC)和脱翘曲发动机
  • 边缘增强超调控制
  • 基于运动的对象跟踪引擎
  • 人脸检测跟踪引擎

处理器内核

  • Arm Cortex-A7 CPU,频率高达720MHz
  • iCatch图像处理管道和加速引擎
  • 3D深度引擎高达VGA30fps

音频

  • 数字麦克风输入
  • I2S与外部音频编解码器的接口
  • 数字自适应均衡器
  • 支持带通滤波器和陷波滤波器
  • 支持音频采样率放大播放

视频

  • H.264 BP/MP/HP高达5级
  • 实时性能高达4K2Kp30+720p30
  • 最多3个同步编码流
  • 高级比特率控制

显示功能

  • 用于用户界面的Alpha混合OSD
  • 支持MIPI-DSI用于面板显示
  • 片上HDMI控制器和物理层
  • BT.601/656/1120数字接口
  • 双显示容量(LCD和HDMI)
  • 支持摄像头模块应用的MIPI CSI输出

内存

  • 16位SDRAM控制器,可编程SDRAM
  • 频率高达800MHz
  • DDR2 / DDR3 DDR3U / DDR3L

外围设备

  • 支持NAND和SPI-XIP闪存[^6^]
  • SD/SDHC/SDXC、MMC、eMMC4.5/5.0接口[^6^]
  • USB 2.0设备和主机接口[^4^]
  • 很多GPIO, PWM, UART, SPI, I2C接口[^1^]
  • 实时时钟和看门狗定时器[^2^]
  • 多通道12位SAR ADC[^3^]
  • GMAC与RGMII接口[^3^]
  • 独立的SDIO控制器用于WiFi和UART用于BT[^3^]
  • 通过GPIF支持外接USB 3.0控制器[^4^]

包装

  • LFBGA 353, 14毫米x 14毫米x 1.4毫米

硬件方案介绍:

  • 小尺寸,小重量
  • 强大功能
  • 强拍摄功能:索尼摄像头传感器
image
通用
尺寸30×30毫米
麦克风1个
重量18克
相机
影像传感器1/2.8英寸 CMOS
视场角129°
光圈f/2.4
等效焦距20 mm
焦点范围0.5米至无穷远
ISO范围100 - 3200
电子快门速度 - 拍照1/8000至16秒
电子快门速度 - 录像1/8000秒至帧率限制快门
照片最大分辨率2592×1944
数码变焦:4倍
单张照片:500万像素
倒计时拍照:关闭/3/5/7秒
普通录影:2.5K (16:9): 2592×1944
@ 24/25/30fps
1080P (16:9): 1920×1080 @ 24/25/30/48/50/60fps
720P(16:9): 1280×720 @ 60fps
慢动作录影:不支持
延时摄影:支持
延时分辨率:2.5K/1080p/720P
拍摄间隔:1/2/3/4/5/6/7/8/10
/13/15/20/25/30/40/60秒
拍摄时长:1/3/5/10/20/30分钟,
1/2/3/5小时
防抖:支持EIS防抖
*延时摄影模式下,不支持EIS。
视频存储最大码流:100 Mbps
支持文件系统:FAT32
图片格式:JPEG
视频格式:MP4 (H.264)
音频输出:48 kHz; AAC
支持储存卡类型:MicroSD (最大支持512GB)
推荐MicroSD卡列表:Samsung EVO 128GB UHS - I Speed Grade 3 microSDHC
Samsung EVO Plus 128GB UHS - I Speed Grade 3 microSDXC
SanDisk extreme 64GB V30 A2 UHS - I Speed Grade 3 microSDXC
SanDisk Extreme Pro 32GB UHS - I Speed Grade 3 microSDXC
SanDisk Extreme 16GB UHS - I Speed Grade 3 microSDXC
Lexar 1066x 64GB UHS - I Speed Grade 3 microSDHC
Kingston Canvas React Plus 64GB UHS - II Speed Grade 3 microSD
Kingston Canvas Go!Plus 64GB UHS - I Speed Grade 3 microSD
电池
类型:LiPo 2S
容量:500 mAh
能量:1.85 Wh
电压:4.2 V
使用环境温度:-10°C 至 40°C
充电环境温度:-10°C 至 40°C
工作时间:2.5K模式下110分钟
省电模式下可达150分钟
*实验室条件下,录像分辨率设为1080p/30fps(省电模式),关闭电子增稳功能时测得,仅供参考。
连接
Wi - Fi工作频率:2.400 - 2.4835 GHz
Wi - Fi协议:802.11 b/g/n