1.机器学习(Machine Learning):人工智能的一个分支,通过数据和算法训练模型,使计算机能够自动学习和持续改进。常见的机器学习算法有决策树、支持向量机、神经网络等。机器学习专注于使用数据和算法模仿人类学习的方式,逐步提高自身的准确性。机器学习方法主要分为监督学习、无监督学习、半监督学习和强化学习。机器学习算法通常使用成熟AI框架(如TensorFlow和PyTorch)创建。机器学习的应用场景非常广泛,如手势识别、市民出行选乘公交预测、待测微生物种类判别、基于运营商数据的个人征信评估、商品图片分类、广告点击行为预测、基于文本内容的垃圾短信识别等。
2.决策树:一种有监督机器学习方法,它使用树状图来表示可能的结果及其发生的概率,每个内部节点代表一个属性上的测试,每个分支代表一个测试结果,每个叶节点代表一种类别或输出。
3.支持向量机(Support Vector Machine, SVM,SVM):一种用于分类、回归分析和异常检测的有监督机器学习方法,旨在找到一个最优超平面以最大化不同类别的间隔,从而实现最佳分类效果。
4.人工神经网络(Artificial Neural Networks,ANN):一种机器学习方法,它通过模拟生物神经系统中神经元之间的连接方式,利用多层节点(神经元)处理和学习数据中的复杂模式,以实现分类、预测等任务。
5.深度学习:机器学习的一个分支,利用由多层(称为深度)隐藏节点组成的深度神经网络(Deep Neural Network,DNN)来模拟和理解数据,能够学习更抽象、更高级别的特征,处理更复杂的问题,能够实现复杂的数据分析和模式识别。
6.自然语言处理(Natural Language Processing,NLP):一门研究计算机与人类自然语言之间交互的学科,它涉及语音识别、文本理解、机器翻译、情感分析等技术,使计算机能够理解和处理人类语言。自然语言处理需要根据前后的内容进行界定,从中消除歧义和模糊性,表达出真正的意义。自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。
7.计算机视觉(Computer Vision,CV):一种让计算机能够从图像或多维数据中解释和理解视觉信息的技术,它可以模拟人类的视觉系统,实现对图像和视频中内容的识别、分类、定位、检测和理解等功能。计算机视觉的应用非常广泛,涵盖医疗影像分析、安全监控、无人驾驶机器人导航、内容创作、电子商务等众多领域,具体应用场景包括手势识别、手写数字甄别、商品图片分类等。
8.语音识别(Automatic Speech Recognition,ASR):也称为自动语音识别,是将语音信号转换成文本的技术,它通过分析声音特征和语音模型实现对语音的识别和理解。语音识别通过对输入的语音信号进行预处理,提取出反映语音特征的关键参数,如梅尔频率倒谱系数(MFCC)、线性预测编码(LPC)等。这些特征参数能够反映语音的音调、音色和音速等属性,有助于后续的声学模型训练。语音识别技术已广泛应用于语音输入、语音助手、语音控制、语音翻译等领域。
9.大型语言模型(Large Language Model,LLM,大模型):一种基于深度学习的人工智能模型,能够以自然方式理解提示并生成人类语言。LLM通过分析数据中的统计模式,可以预测给定输人后最可能出现的单词或短语。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等。
10.RAG(Retrieval-Augmented Generation,检索增强生成):一种结合信息检索和语言生成的技术,通过检索相关知识来增强大型语言模型的理解和生成能力。RAG通过为LLM提供外部知识源,使LLM能够生成准确且符合上下文的答案,同时能够减少模型幻觉。
11.AI Agent:称之为智能体或数字员工,并非聊天机器人的升级版。它不仅会告诉你“如何做”,还会“帮你做”。AI Agent可以被定义为能自主理解、自主规划和决策、自动执行复杂任务并交付结果的数字员工(一组软件或硬件实体),可以用下面的公式来概括:
AI Agent=大模型+记忆+实时感知环境+主动规划和决策+主动寻找并使用工具改变环境+交付目标成果。
12.AI大模型提示词(Prompt):是给大模型的提示语或引导语,通过特定的提示来引导大模型生成特定的内容。例如,给大模型“请描述一位XXX心中的美女”这样的提示词,让大模型生成一段关于美女的描述。用户使用提示词可以与大模型便捷、简单地进行交互,可以用自然语言的表达方式,要求 AI 工具执行各种任务。与传统软件的复杂操作或使用编程代码相比,提示词使用起来非常容易。不过,好用的提示词都有一定的结构和使用技巧。提示词万能公式=角色+角色技能+任务的核心关键词+任务目标+任务背景+任务范围+任务解决与否判定+任务的限制条件+输出格式/形式+输出量。
13.AI应用分为5个层次:①模型:一系列文本词汇中具有对应逻辑关系的计算机框架模型;②提示词:通过设定各类参数格式等,优化大模型的反馈效果;③工作流:用提示词创建一系列的工作模型,使每个步骤的输入和输出以一定顾序逻辑衔接,保证最终输出结果;④单Agent:利用记忆模块及不同的插件工具,成为某个领域功能场景的专家;⑤多Agent协作:通过设计作机制,多个Agent或工作流可以协同工作,完成复杂任务。从模型到提示词,再到工作流(Chain),最后到Agent(单Agent及多Agent协作),反映了我们使用AI技术,与AI系统交互方式的不断升级。与提示词相比,Agent具有更强大的AI能力。
14.LLM的应用集中于两个方向:RAG 和Agent。如果说RAG是通过外挂知识达到让LLM在垂直领域应用落地的目的的,那么AI Agent 就是让LLM学会现实世界中的各种规则,并利用这些规则执行目标任务。
15.RAG与AI Agent的关系:RAG可以作为AI Agent架构(比如LangChain)的一部分,用以为AI Agent 提供更加丰富和准确的语言生成能力。AI Agent 可能使用LangChain来处理自然语言的任务,比如理解用户输入和生成响应。AI Agent 可以利用RAG技术来提高自身在特定任务(如问答或对话系统)中的性能,尤其是在需要外部知识来支持决策时。RAG是一种技术框架,Agent是一种软硬件实体,RAG(检索增强生成)与AI Agent之间的关系体现在它们如何共同提升智能系统的效率和准确性。