基于other2pdf-project。基于 Gotenberg转换(go);gin作为web框架和服务器;panjf2000/ants异步任务管理器;
功能:(1)md或zip(包含图片和md)转换为docx(2)同时支持docx2md; 优点:(1)公式显示word公式工具;(2)对比显示;速度快;效果好;要求:(1)要求latex公式转为word框-MathML形式;
1.ppt父标签页中-ppt转为拼接图-返回一张图片(ppt2image); 2.word父标签页中-word中内容替换与修改; 3.excel父标签页中-中内容替换与修改;
基于正则替换的轻量级方案;重量级见:pdf2office-md-zip-pro# md在线编辑与pdf对比转换平台 功能:(1)转换:md的zip压缩包-》可搜索文本的pdf;(2)pdf和md对比查看;(3)自动清洗符号;(4)多zip查看与保存<br>缺点:md2pdf和md2docx速度较快速度较慢(因为采用的weasy);优点:(1)镜像较小:371M;(2)转pdf和docx效果都挺好;
功能;(1)imagen4的fastapi化;(2) tts的的fastapi化-区分男女;(3)实时语音对话-返回文字;(4)上传文件到google drive云盘并返回直链;
Nginx-Proxy 生态实现子域名与docker容器端口前端绑定与自动设置,并在页面提示cloudflare的record添加;思路:spaceship购买域名;火山引擎购买云服务器和公网ip;cloudflare提供名称服务器(cloudflare的域名比较贵,1x美元起步);优点:配置token到.env后自动更新dns记录到cloudflare;自动化反向代理与域名映射。
新增pdf翻译(此项目原为md的zip的翻译) pdf的解析基于https://github.com/PDFMathTranslate-next/PDFMathTranslate-next 翻译接口调用自带的hy-mt;默认翻译模型:Tencent-Hunyuan/Hy-MT2-1.8B-FP8;
实现功能: 一、other2pdf-支持转换类型:将 ZIP(md+图片;图片;pdf;多级zip) 或图片或pdf;(1)-》转为pdf(图片式)(2)-》转为pdf(非图片式); 二、other2docx: (1).将Markdown ZIP -》转为可编辑docx(非图片式); 三、pdf拆分与编辑-保留文字;四、pdf批量压缩、裁剪与转换;五、md2xlsx:六:docx2md
基于translate-md-folder-by-llm-project;将其中的python都替代为go进行真多任务并发;模型基于Tencent-Hunyuan/Hy-MT2-1.8B-FP8;
特色:文字替换(仅使用此功能即可):可替换文本式pdf内的内容;缺点:文字替换有残留痕迹;md转pdf:(1)默认不处理latex公式;(2)图片前后分段不对;(3)图片未导入;(4)表格转换不好;pdf提取md:
场景:简单布局及无合并单元格的表格。 功能:产出带图 Markdown、可搜索 PDF 及版面解析。 优点:CPU 推理快,中英稳健,PP-DocLayout V3版面分析精细。 缺点:文本精度上限受限,复杂表格行列还原差,语义理解弱于多模态大模型。并发:多容器并发;
gemini的live引入;分析不准;有问题;摄像头推流-用rtmp代替livekit;镜像可考虑使用pizzapulls/rtmp:1.4【(待验证推流)浏览器上的流媒体传输】