一个基于纯C/C++实现的高性能大语言模型推理引擎,专为优化本地及云端部署而设计。其核心目标在于通过底层硬件加速和量化技术,实现在多样化硬件平台上的高效推理,同时保持低资源占用与易用性。
最近更新: 29天前BitNet是微软官方推出的1位大语言模型推理框架,专门为BitNet b1.58等1位量化模型设计的高性能推理解决方案。该项目基于llama.cpp框架构建,提供了一套高度优化的内核,支持在CPU和GPU上实现快速、无损的1.58位模型推理。BitNet代表了大型语言模型推理效率的重大突破,...
最近更新: 1个月前llm.c 是一个简单、纯粹的 C/CUDA LLM 训练项目。不需要使用 245MB 的 PyTorch 或 107MB 的 cPython 就能用纯 C 语言训练 LLM。 更让人佩服的是,LLM.c 仅用约 1000 行干净的代码即可在 CPU/fp32 上实现 GPT-2 训练。它可...
最近更新: 3个月前高吞吐、低内存大模型推理引擎,其设计初衷直击行业痛点:传统推理框架在处理多请求并发时,普遍存在KV缓存内存碎片化严重、GPU利用率低下等问题。通过 PagedAttention 这一革命性技术,vLLM实现了近零浪费的KV缓存管理,同时完美兼容OpenAI API协议,让开发者无需改造现有生态...
最近更新: 8个月前LocalAI是免费的开源 OpenAI 替代品。LocalAI 可作为替代 REST API,与 OpenAI(Elevenlabs、Anthropic……)API 规范兼容,用于本地 AI 推理。它允许您在本地或使用消费级硬件运行 LLM、生成图像、音频(不止于此),支持多种模型系列。不需...
最近更新: 8个月前一个 “模型即服务”(MaaS) 平台,旨在汇集来自 AI 社区的最先进的机器学习模型,并简化在实际应用中使用 AI 模型的流程。ModelScope 库使开发人员能够通过丰富的 API 设计执行推理、训练和评估,从而促进跨不同 AI 领域的最先进模型的统一体验。
最近更新: 9个月前