输入提示长度和输出长度的默认限制是什么？

在使用 AWS Bedrock 提供的基础模型（如 NFT 市场模型）时，输入提示长度和输出长度的限制因模型而异。这些限制通常以“令牌”（token）的形式表示，每个令牌大约对应 4 个字符。输入提示长度表示单次请求中可以发送给模型的文本量，而输出长度则决定了模型生成的文本量。

例如，Claude 2.1 支持最多 100,000 个令牌的输入，而 Amazon Titan Text 的输入限制为 8,192 个令牌。输出限制通常可以通过设置参数（如 max_tokens）进行调整，但默认值通常受模型的上限限制。例如，Claude 的默认输出限制为 4,096 个令牌。这些限制的设计旨在平衡性能和成本，因为处理较长的序列需要更多的计算资源。

如何查找具体的令牌限制？

要了解特定模型的输入和输出限制，可以参考 AWS Bedrock 的官方文档。以下是查找限制的具体步骤：

AWS 控制台：在 AWS 控制台中，导航到 Bedrock > Model Access，选择目标模型，查看“模型详细信息”部分。
API 文档：API 引用文档中会列出模型的详细信息。例如，InvokeModel 请求中的 modelId 参数对应于具有特定限制的模型。
模型页面：每个模型的详细信息页面都会列出其令牌限制和配置选项。

例如，AI21 Labs 的 Jurassic-2 模型支持较短的输入（如 8,192 个令牌），但可以通过 API 请求体中的 maxTokens 参数调整输出长度。开发者在使用这些模型时，应确保输入提示和输出结果在限制范围内。如果需要处理超长文档（如 120,000 个令牌的文档），可以将其分割为多个段（如每段 100,000 个令牌）进行处理。

如何测试和管理令牌限制？

开发者可以通过编程方式测试和管理令牌限制，以确保请求符合模型的约束条件。以下是一些实用的建议：

使用 SDK 测试限制：
使用 AWS SDK for Python（boto3）调用 invoke_model 方法时，如果输入提示超出限制，可能会返回 ValidationException 错误。错误消息通常会明确指出允许的令牌范围。
预处理输入：
使用令牌计数工具（如 Anthropic 提供的 “Claude Tokenizer”）对输入文本进行预处理，以确保其长度在允许范围内。
调整输出限制：
在请求中设置 max_tokens 参数可以管理输出长度，但不能超过模型的最大值。如果超出限制，将触发错误。
申请配额增加：
如果默认限制无法满足需求，可以联系 AWS 支持申请配额增加。一些模型允许根据需求调整限制。
关注文档更新：
模型的限制可能会随着版本更新而改变。例如，Claude 3 的输入限制已提升至 200,000 个令牌。因此，开发者应定期查看最新文档以获取最新信息。

总结

输入提示长度和输出长度的限制是使用 AWS Bedrock 模型时需要重点关注的参数。通过了解每个模型的具体限制并合理配置参数，可以确保模型的性能和成本效率。开发者在实际应用中，应结合文档说明、SDK 测试和令牌计数工具，确保输入输出符合模型的限制范围。同时，关注 AWS 官方文档的更新，以便及时适应模型的变化。

原文链接: https://blog.milvus.io/ai-quick-reference/what-are-the-default-limits-on-input-prompt-length-and-output-length-for-models-in-bedrock-and-where-can-i-find-this-information

输入提示长度和输出长度的默认限制是什么？