跳转到主要内容
高频问题请先查阅此文档

1. 模型使用与安全

onetoken 是否会存储用户 API 请求内容?

  • onetoken 不会存储您通过 API 发送的任何请求内容,也不会记录模型返回的响应内容。 onetoken 的角色仅为中转通道,用于将您的请求安全地转发至相应的模型提供商,并将对方的响应原样返回给您。

为什么 claude、gpt、qwen 等官方产品与 API 返回结果不同?

模型本身是相同的、官方产品进行了额外的工程优化(比如内置提示词)
  • 网页版相当于精装房、内置搜索、记忆、计算器、系统提示词等功能
  • API 调用相当于毛坯房、只提供核心能力、其他功能需要开发者自行配置上下文和工具

为什么不推荐在翻译类工具中使用 GPT-5 系列模型?

GPT-5 系列属于推理模型,设计目标是执行复杂推理与结构化生成,不适合高频实时任务。

原因:

  • 调用速度较慢(推理步骤多);
  • 消耗更多 Token(系统提示和推理上下文较长);
  • 翻译插件可能误触安全策略。
翻译或对话场景推荐使用 GPT-4o mini 或 Gemini 等轻量模型,响应更快更稳定。

为什么问“你是谁”时,GPT-5 有时会回答“我是 GPT-4”?

这种现象属于语言模型的幻觉,表现为模型对自身基座、来源或能力的描述错误。 在使用 GPT-4、GPT-5、Claude 等大语言模型时,开发者可能会遇到模型自信却不准确地回答自身身份的情况。

说明:

  • 这种现象并非平台故意修改或替换模型输出,也不是“移花接木”,属于 LLM 的正常行为;
  • GPT-5 在训练阶段并未被赋予“GPT-5”这个名称,这个名字是官方在训练完成后定义的;
  • 模型本身不知道自己的名称或知识库时间;如果 OpenAI 的网页版本能正确回答是因为网页内置了系统提示词;我们这边是官方的 API 版本非网页版本。
  • 通过 API 直接询问模型自身身份时,回答可能随机且不准确,因为模型本身并不具备自我认知。

调用某些模型(如 Gemini-3-Pro)时经常超时怎么办?

请提高超时设置时长。Gemini-3-Pro 属于大模型,推理过程会有较长的思考时间,尤其在复杂任务下响应时间可能超过 30 秒。因此 30s 的默认设置容易导致超时。
  • 如果必须使用 Gemini-3-Pro,请将超时时间适当延长。
  • 如果对响应速度要求较高,建议改用 Gemini 2.0 等轻量模型,更适合短时间超时配置。

为什么只发了一句“你好”,却消耗了很多 Tokens?

部分第三方工具(如 Cline、Claude Code 等)在请求时会自动携带上下文或系统提示,这些隐藏内容也会计入 Token 消耗。 即使用户只输入一句“你好”,后台请求中可能包含大量历史对话或设定文本。 这些附加内容来自工具端,而非 onetoken 平台生成。

API 并发请求的频率限制是多少?

平台当前对并发请求没有统一限制。若遇到并发问题,请联系客服。

为什么相同提示词,每次生成结果不同?

大模型在生成文本时使用概率采样机制(如 temperature、top-p 等),每次会从多个可能的词中随机选择。
  • 若希望结果更稳定,可降低 temperature 或关闭采样;
  • 生成差异也可能受上下文、系统提示或网络环境影响。

使用 Claude 模型时,为什么回答会提前结束?

针对 Claude 模型, onetoken 当前支持两种调用方式:
  1. OpenAI Chat 兼容接口
  2. Anthropic Claude 原生接口
当通过 OpenAI Chat 兼容接口调用 Claude 模型时,系统默认 max_tokens=4096。 如果请求中未显式设置更大的 max_tokens,模型将在达到该上限后自动停止输出。因此,出现“回答未完成即结束”的情况,通常并非模型异常,而是触达了默认输出长度限制。

如何生成更长文本?

在 OpenAI Chat 兼容接口下,可手动设置更大的 max_tokens 参数,例如:
completion = client.chat.completions.create(
  model="claude-sonnet-4-6",
  max_tokens=6000,
  messages=[
    {
      "role": "assistant",
      "content": "总是用中文回复"
    },
    {
      "role": "user",
      "content": "What is the meaning of life?, over 6000 words"
    }
  ]
)
max_tokens 不得超过对应模型的最大支持上限,如设置后如仍出现截断情况,可提供模型名称及完整请求参数以便进一步排查。

2. API 调用与数据

有哪些可用的 API 接口?

提供统一网关,兼容多种主流模型规范:

API 使用期间会记录哪些数据?

我们仅记录必要的使用数据,包括账户信息、调用记录、使用模型、Token 消耗量及支付信息。

隐私保障:

  • 不会保存用户输入或模型输出内容
  • 数据仅用于计费与服务优化,不会用于内容分析或向第三方共享
  • onetoken 自身不会保留具体请求数据,但若底层云厂商(如模型提供方或托管平台)出于安全或合规要求记录访问日志,该部分数据将受其隐私政策约束。

3. 模型知识与常见现象

1.什么是 AI 幻觉(AI Hallucination)?

AI 幻觉是指大型语言模型生成与事实不符、缺乏依据或完全虚构的信息。

可能原因:

  • 训练数据偏差或缺失;
  • 模型参数过拟合;
  • 生成阶段存在随机性。
幻觉是所有大语言模型的共性现象,并非系统故障。

4. 使用与故障排查

如何监控 API 使用情况和消耗?

可通过 onetoken 控制台查看调用量、Token 消耗量及计费明细。 支持按模型、时间段进行分类统计,便于优化调用策略和成本管理。

调用失败或报错时该怎么办?

API 返回错误时会附带错误码与说明。 常见原因包括:
  • 请求格式错误;
  • 模型不可用或超出限额。

如何管理 API Key?

用户可在控制台生成、撤销或更新 API Key。

安全建议:

  • 不要在公共环境中暴露 API Key;
  • 为不同项目使用独立 Key;
  • 定期更换以保障账户安全。