所有文章 > 当前标签:大语言模型
DeepSeek-V3.1 助力:副业撮合平台 3 天极速上线 AI 客服实战
DeepSeek-V3.1 助力:副业撮合平台 3 天极速上线 AI 客服实战
2025/08/24
在当今快节奏的互联网时代,“天下武功,唯快不破” 这一法则在创业领域体现得淋漓尽致。尤其是对于“副业撮合平台”这类旨在连接自由职业者与需求方的初创项目,快速验证市场(MVP)、抢占早期用户心智至关重要。然而,一个巨大的矛盾摆在面前:平台上线...
使用AI助手进行Prompt工程的最佳实践
使用AI助手进行Prompt工程的最佳实践
【AI提示词模板】 本文介绍了如何利用AI助手如Pieces Copilot进行Prompt工程的最佳实践,包括代码生成与操作、明确预期结果、提供清晰命名和结构指导、相关上下文的重要性、遵循代码风格与格式指导以及利用长期记忆功能。通过合理设计提示和提供上下文,开发者可以提升代码生成效率和质量。
2025/08/20
Google DeepMind发布 Genie 3:“Promptable World Events”协议实战指南
Google DeepMind发布 Genie 3:“Promptable World Events”协议实战指南
【AI驱动】 2025 年 8 月 5 日,Google DeepMind 毫无预兆地扔下一颗“世界模型核弹”——Genie 3,首次把“Promptable World Events(可提示世界事件)”这一全新协议带到公众面前。 1. 什么是 Gen...
2025/08/07
使用LoRA(低秩适应)微调大型语言模型的实用技巧
使用LoRA(低秩适应)微调大型语言模型的实用技巧
【学习各类API】 文章探讨了使用LoRA(低秩适应)微调大型语言模型(LLM)的实用技巧,指出LoRA通过低秩矩阵分解显著降低了训练内存需求。实验表明,尽管LLM训练存在随机性,但结果高度一致。QLoRA(量化LoRA)可在内存受限时使用,节省33%的GPU内存,但会增加39%的训练时间。此外,优化器选择对结果影响较小,而调整LoRA的秩和α值对性能至关重要。
2025/05/16
复杂推理:大语言模型的北极星能力
复杂推理:大语言模型的北极星能力
【日积月累】 1.动机:大语言模型作为新一代计算平台 我们研究复杂推理的原因有两个: 1. 复杂推理是标志着小模型与大模型差异的关键因素,这一点在 GPT-4 发布文章中已经讨论过; 2. 复杂推理是使模型成为下一代...
2025/03/17
DeepSeekMath:挑战大语言模型的数学推理极限
DeepSeekMath:挑战大语言模型的数学推理极限
【AI驱动】 DeepSeekMath是一个7B参数的模型,展示了接近GPT-4的数学推理能力,在MATH基准测试中超越了多个30B至70B参数的开源模型。它使用了从Common Crawl提取的120B高质量数学网页数据,并结合了代码领域模型DeepSeek-Coder-v1.5进行初始化训练,以及GRPO强化学习算法来提升对齐效果。实验结果显示DeepSeekMath在中英数学基准测试中表现出色,论文和模型已开源。
2025/03/13
大语言模型架构全景图:趋势、基准与挑战
大语言模型架构全景图:趋势、基准与挑战
【日积月累】 前言 2017年,Transformer架构的问世,为自然语言处理(NLP)技术带来了颠覆性的变革。一种名为大语言模型(LLM)的深度学习模型应运而生,它们在理解自然语言和生成连贯回应方面展现出超凡的能力。LLM的复杂性远超传统神经网...
2025/02/28
FastGPT知识库接口案例:构建本地化智能问答系统的深度解析
FastGPT知识库接口案例:构建本地化智能问答系统的深度解析
【日积月累】 本文将深入探讨如何利用FastGPT构建一个本地化的知识库接口系统,并结合实际案例,分析其技术优势、部署流程、知识库管理及自定义模型集成,为开发者提供专业且深度的指导。
2025/01/16
大语言模型技术是什么?
大语言模型技术是什么?
【日积月累】 本文聚焦大语言模型技术 Large Language Model,简称LLM,详述其基于深度学习利用海量文本经预训练与微调掌握语言规律的原理,介绍 Transformer 架构及训练机制;梳理从萌芽至爆发增长各阶段历程;展现内容创作、客服、开发等多领域应用;剖析数据、可解释性、伦理等挑战;展望架构、效率、应用拓展及协同发展趋势,全面解读该技术现状与未来走向
2025/01/09
利用AI API增强您的应用程序
利用AI API增强您的应用程序
【学习各类API】 今天,我们将深入探讨如何在应用程序中使用AI,特别是如何利用LLM来构建应用程序。我们还将讨论在决定是构建自己的AI API还是使用第三方AI供应商API时需要考虑的关键因素。
2024/09/01
大模型Prompt技巧
大模型Prompt技巧
【AI驱动】 提示工程不仅仅是关于设计和研发提示词,还包含了与大语言模型交互和研发的各种技能和技术。提示工程在实现和大语言模型交互、对接,以及理解大语言模型能力方面都起着重要作用。
2024/08/19
如何利用微调LLMs预测股票收益率
如何利用微调LLMs预测股票收益率
【AI驱动】 本文探讨了微调大型语言模型(LLMs)以利用财务新闻流预测股票回报的方法,比较了编码器和解码器LLMs在不同文本表示方法下的性能,并发现聚合表示通常能提升投资组合表现,其中Mistral模型在多个投资宇宙中表现稳健,而基于LLMs的回报预测比传统情感分析更能增强投资组合构建的效果。
2024/08/19
大语音模型(LLM) 中的“参数”一词是什么意思?
大语音模型(LLM) 中的“参数”一词是什么意思?
【AI驱动】 当我们在大型语言模型 (LLM) 的上下文中谈论参数时,我们指的是帮助模型做出决策的内部配置。将参数视为决定模型如何运行的设置或规则。简单地说,它们就像您大脑中的神经元,帮助您思考、处理和决策。
2024/08/06
一文说尽大模型技术之一:LLM的架构
一文说尽大模型技术之一:LLM的架构
【AI驱动】 本文以“大语言模型技术”为核心,深入探讨了大语言模型(LLM)的关键技术细节。文章分为三个部分,分别介绍了LLM的架构、分布式预训练和参数高效微调技术。在架构部分,作者详细分析了GPT、LLaMA、ChatGLM和Falcon等模型的技术细节,包括分词器(tokenizer)、位置编码、层归一化、激活函数以及多查询注意力(Multi-query Attention)和分组查询注意力(Grouped-query Attention)等关键组件。这些技术细节对模型的训练速度和准确性有着直接影响。文章还探讨了并行Transformer模块的设计以及训练稳定性的重要性。整体而言,本文为读者提供了大语言模型技术的全面视角,适合对LLM技术感兴趣的研究者和开发者参考。
2024/07/22
AI大模型应用的6种架构设计模式,你知道几种?
AI大模型应用的6种架构设计模式,你知道几种?
【AI驱动】 根据多年的架构设计经验,作者在文中整理总结了一些针对大模型应用的设计方法和架构模式,试图应对和解决大模型应用实现中的一些挑战,比如:成本问题、延迟问题以及生成的幻觉等问题。
2024/06/27
大模型从原理到应用开发——提纲挈领,十问十答
大模型从原理到应用开发——提纲挈领,十问十答
【AI驱动】 本文是 新加坡科研局首席AI研究员黄佳 在CSDN直播间主题分享的文字版。
2024/06/12