Heygem – 硅基智能推出的开源数字人模型

AI资讯2025-03-12 小编

硅基智能(南京硅基智能科技集团股份有限公司)旗下数字人模型HeyGem.ai在GitHub开源仅3天即突破1000颗Stars。该模型以“1秒视频/1张照片”输入实现30秒克隆形象与声音、60秒生成4K超清视频，在复杂场景下仍能保持100%口型匹配及多表情动作输出，性能达全球TOP级水平。技术层面，推理速度达1:0.5，32帧/秒超高清4K输出超越电影级标准。此次最新模型将推动数字人在教育、影视、直播等场景的平民化应用。

Heygem是什么

Heygem 是硅基智能推出的开源数字人模型，专为 Windows 系统设计。基于先进的AI技术，仅需 1 秒视频或 1 张照片，能在 30 秒内完成数字人形象和声音克隆，在 60 秒内合成 4K 超高清视频。Heygem支持多语言输出、多表情动作，具备 100% 口型匹配能力，在复杂光影或遮挡场景下能保持高度逼真的效果。Heygem 基于全离线运行模式，保护用户隐私，支持低配置硬件部署，极大地降低使用门槛，为内容创作、直播、教育等场景提供高效、低成本的数字人解决方案。

Heygem的主要功能

秒级克隆：仅需1秒视频或1张照片，完成数字人形象和声音的克隆，30秒内完成克隆，60秒内合成4K超高清数字人视频。
高效推理：推理速度达到1:0.5，视频渲染合成速度达到1:2。
高质量输出：支持4K超高清、32帧/秒的视频输出，超越好莱坞电影24帧的标准。
多语言支持：克隆后的数字人支持8种语言输出，满足全球市场需求。
无限量克隆：支持无限量克隆数字人形象和声音，无限量合成视频。
100%口型匹配：在复杂光影、遮挡或侧面角度下，实现高度逼真的口型匹配。
低配可跑：支持Docker一键部署，最低只需NVIDIA 1080Ti显卡即可运行。

Heygem的技术原理

声音克隆技术：基于AI等先进技术，根据给定的声音样本生成与之相似或相同声音的技术，涵盖语音中的语境、语调、语速等。
自动语音识别：将人类语音中的词汇内容转换为计算机可读输入，让计算机 “听懂” 人们说的话。
计算机视觉技术：用在视频合成中的视觉处理，包括面部识别、口型分析等，确保虚拟形象的口型与声音和文字内容相匹配。

如何使用Heygem

安装要求：
- 系统要求：支持Windows 10 19042.1526或更高版本。
- 硬件推荐：
  - CPU：第13代英特尔酷睿i5-13400F。
  - 内存：32GB。
  - 显卡：RTX 4070。
- 存储空间：
  - D盘：用在存储数字人和项目数据，需要30GB以上空间。
  - C盘：用在存储服务镜像文件，需要100GB以上空间。
- 依赖项：
  - Node.js 18。
  - Docker 镜像：
    - docker pull guiji2025/fun-asr:1.0.2。
    - docker pull guiji2025/fish-speech-ziming:1.0.39。
    - docker pull guiji2025/heygem.ai:0.0.7_sdk_slim。
安装步骤：
- 安装Docker：检查是否安装WSL（Windows Subsystem for Linux），如果未安装，运行wsl –install。更新WSL。下载安装Docker for Windows。
- 安装服务器：用Docker和docker-compose安装服务器。在/deploy目录下运行docker-compose up -d。
- 安装客户端：运行npm run build:win生成安装程序HeyGem-1.0.0-setup.exe。双击安装程序进行安装。