常见问题 - onetoken docs

高频问题请先查阅此文档

1. 模型使用与安全

onetoken 是否会存储用户 API 请求内容？

onetoken 不会存储您通过 API 发送的任何请求内容，也不会记录模型返回的响应内容。 onetoken 的角色仅为中转通道，用于将您的请求安全地转发至相应的模型提供商，并将对方的响应原样返回给您。

为什么 claude、gpt、qwen 等官方产品与 API 返回结果不同？

模型本身是相同的、官方产品进行了额外的工程优化（比如内置提示词）

网页版相当于精装房、内置搜索、记忆、计算器、系统提示词等功能
API 调用相当于毛坯房、只提供核心能力、其他功能需要开发者自行配置上下文和工具

为什么不推荐在翻译类工具中使用 GPT-5 系列模型？

GPT-5 系列属于推理模型，设计目标是执行复杂推理与结构化生成，不适合高频实时任务。

原因：

调用速度较慢（推理步骤多）；
消耗更多 Token（系统提示和推理上下文较长）；
翻译插件可能误触安全策略。

翻译或对话场景推荐使用 GPT-4o mini 或 Gemini 等轻量模型，响应更快更稳定。

为什么问“你是谁”时，GPT-5 有时会回答“我是 GPT-4”？

这种现象属于语言模型的幻觉，表现为模型对自身基座、来源或能力的描述错误。在使用 GPT-4、GPT-5、Claude 等大语言模型时，开发者可能会遇到模型自信却不准确地回答自身身份的情况。

说明：

这种现象并非平台故意修改或替换模型输出，也不是“移花接木”，属于 LLM 的正常行为；
GPT-5 在训练阶段并未被赋予“GPT-5”这个名称，这个名字是官方在训练完成后定义的；
模型本身不知道自己的名称或知识库时间；如果 OpenAI 的网页版本能正确回答是因为网页内置了系统提示词；我们这边是官方的 API 版本非网页版本。
通过 API 直接询问模型自身身份时，回答可能随机且不准确，因为模型本身并不具备自我认知。

调用某些模型（如 Gemini-3-Pro）时经常超时怎么办？

请提高超时设置时长。Gemini-3-Pro 属于大模型，推理过程会有较长的思考时间，尤其在复杂任务下响应时间可能超过 30 秒。因此 30s 的默认设置容易导致超时。

如果必须使用 Gemini-3-Pro，请将超时时间适当延长。
如果对响应速度要求较高，建议改用 Gemini 2.0 等轻量模型，更适合短时间超时配置。

为什么只发了一句“你好”，却消耗了很多 Tokens？

部分第三方工具（如 Cline、Claude Code 等）在请求时会自动携带上下文或系统提示，这些隐藏内容也会计入 Token 消耗。即使用户只输入一句“你好”，后台请求中可能包含大量历史对话或设定文本。这些附加内容来自工具端，而非 onetoken 平台生成。

API 并发请求的频率限制是多少？

平台当前对并发请求没有统一限制。若遇到并发问题，请联系客服。

为什么相同提示词，每次生成结果不同？

大模型在生成文本时使用概率采样机制（如 temperature、top-p 等），每次会从多个可能的词中随机选择。

若希望结果更稳定，可降低 temperature 或关闭采样；
生成差异也可能受上下文、系统提示或网络环境影响。

使用 Claude 模型时，为什么回答会提前结束？

针对 Claude 模型， onetoken 当前支持两种调用方式：

OpenAI Chat 兼容接口
Anthropic Claude 原生接口

当通过 OpenAI Chat 兼容接口调用 Claude 模型时，系统默认 max_tokens=4096。如果请求中未显式设置更大的 max_tokens，模型将在达到该上限后自动停止输出。因此，出现“回答未完成即结束”的情况，通常并非模型异常，而是触达了默认输出长度限制。

如何生成更长文本？

在 OpenAI Chat 兼容接口下，可手动设置更大的 max_tokens 参数，例如：

completion = client.chat.completions.create(
  model="claude-sonnet-4-6",
  max_tokens=6000,
  messages=[
    {
      "role": "assistant",
      "content": "总是用中文回复"
    },
    {
      "role": "user",
      "content": "What is the meaning of life?, over 6000 words"
    }
  ]
)

max_tokens 不得超过对应模型的最大支持上限，如设置后如仍出现截断情况，可提供模型名称及完整请求参数以便进一步排查。

2. API 调用与数据

有哪些可用的 API 接口？

提供统一网关，兼容多种主流模型规范：

OpenAI 标准端点：https://onetoken.one/v1 （支持 GPT 及兼容模型）
Claude 自动转发端点：https://onetoken.one （兼容 Anthropic SDK 调用方式）

API 使用期间会记录哪些数据？

我们仅记录必要的使用数据，包括账户信息、调用记录、使用模型、Token 消耗量及支付信息。

隐私保障：

不会保存用户输入或模型输出内容
数据仅用于计费与服务优化，不会用于内容分析或向第三方共享
onetoken 自身不会保留具体请求数据，但若底层云厂商（如模型提供方或托管平台）出于安全或合规要求记录访问日志，该部分数据将受其隐私政策约束。

3. 模型知识与常见现象

1.什么是 AI 幻觉（AI Hallucination）？

AI 幻觉是指大型语言模型生成与事实不符、缺乏依据或完全虚构的信息。

可能原因：

训练数据偏差或缺失；
模型参数过拟合；
生成阶段存在随机性。

幻觉是所有大语言模型的共性现象，并非系统故障。

4. 使用与故障排查

如何监控 API 使用情况和消耗？

可通过 onetoken 控制台查看调用量、Token 消耗量及计费明细。支持按模型、时间段进行分类统计，便于优化调用策略和成本管理。

调用失败或报错时该怎么办？

API 返回错误时会附带错误码与说明。常见原因包括：

请求格式错误；
模型不可用或超出限额。

如何管理 API Key？

用户可在控制台生成、撤销或更新 API Key。

安全建议：

不要在公共环境中暴露 API Key；
为不同项目使用独立 Key；
定期更换以保障账户安全。

​1. 模型使用与安全

​onetoken 是否会存储用户 API 请求内容？

​为什么 claude、gpt、qwen 等官方产品与 API 返回结果不同？

​为什么不推荐在翻译类工具中使用 GPT-5 系列模型？

​原因：

​为什么问“你是谁”时，GPT-5 有时会回答“我是 GPT-4”？

​说明：

​调用某些模型（如 Gemini-3-Pro）时经常超时怎么办？

​为什么只发了一句“你好”，却消耗了很多 Tokens？

​API 并发请求的频率限制是多少？

​为什么相同提示词，每次生成结果不同？

​使用 Claude 模型时，为什么回答会提前结束？

​如何生成更长文本？

​2. API 调用与数据

​有哪些可用的 API 接口？

​API 使用期间会记录哪些数据？

​隐私保障：

​3. 模型知识与常见现象

​1.什么是 AI 幻觉（AI Hallucination）？

​可能原因：

​4. 使用与故障排查

​如何监控 API 使用情况和消耗？

​调用失败或报错时该怎么办？

​如何管理 API Key？

​安全建议：