1201 数据挖掘前三章知识点整理
第一章,商务智能 本章目录 本门课实际上是三个部分:数据仓库(DW);多维数据分析(OLAP);数据挖掘(DM) 第一节、数据信息知识 数据 定义:一些“无意义的符号”,是对客观实体、状态或变化的原始记录。 例子:数据库中的一个数字 “10”,本身没有任何具体含义。 信息 定义:对数据进行有目的、有规范的加工和处理,赋予其上下文。 关键点:我们专业叫“信息管理”而非“数据管理”,核心就在于“加工处理”。用熵去代表信息量。 例子:将 “10” 解释为 “这条生产线每小时能生产 10 个零件”。 知识 定义:对信息进行更深层次的理解、推理和归纳,将其浓缩后形成的“模式”或“规律”。 例子:通过长期观察总结出:“这条生产线的产能上限就是每天 10 个零件”。这是一种经验。 智慧 定义:应用已有的知识去解决问题、做出决策的能力。 例子:销售部门利用“产能上限 10 个”这一知识,避免做出“100 个零件 7 天交货”的错误决策。 例 如:“5 月 20 日”是 数 据,记录 的 是 你 好 朋 友 的 生 日 就 是 信 息,你 投 其 所 好 送 了 一 瓶 Ch...
12.1 Z-image的mac使用指南
最近 Z-Image-Turbo 模型在社区热度很高,以极快的推理速度著称。网上关于 Windows (NVIDIA 显卡) 的部署教程已经非常丰富,大多推荐使用 FP8 精度版本。 然而在 macOS (M 系列芯片) 上部署该模型时,情况完全不同。由于 MPS (Metal Performance Shaders) 后端对数据类型的支持差异,直接照搬 Windows 的流程会遇到不少阻碍。本文记录了在 Mac 上基于ComfyUI + GGUF 方案部署 Z-Image-Turbo,并封装 OpenAI 兼容 API 的全过程。 在这次部署中,我主要依赖了几个核心工具来构建整套系统。首先是 ComfyUI,这是一个基于节点流的 Stable Diffusion 操作界面,它极高的灵活性允许我们对推理管线进行精细的控制。其次是 GGUF 格式及其对应的 ComfyUI 插件,GGUF 原本是大语言模型领域常用的量化格式,现在被引入到图像生成领域,能够极大地降低显存占用并提升在 Mac 设备上的运行效率。最后是 ComfyUI API Bridge,这是一个基于 Python ...
信息经济学考试押题
第一题 信息经济学的作用 信息经济学有利于揭示市场经济中低效率的原因。有益于揭示信息分布的非对称性对激励机制、商业谈判、制度安排等的影响,对市场运行的不利影响及其弥补措施。 信息经济学可以帮助人们建立对市场经济中信息市场运行的认识框架。包括委托代理与激励、逆向选择与道德风险、信号发送与信息甄别,以及搜寻与信息系统选择等,从而可以更好地认识信息和信息系统的特性。 信息经济学揭示了信息作为经济中重要投入要素的作用,其作用具有边际效益递增的趋势。 信息经济学促使人们理解信息的可靠性、完整程度和披露方式对市场和政府有效运作的重要影响,信息不灵会导致市场配置和政府调控的失效 。 信息经济学推动人们认识到,越是复杂的经济活动越需要依赖信息,信息对这类活动的作用日益增大,缺乏信息和必要的信息处理能力,会极大影响这类活动的效率,甚至导致失败。 第二题 分离均衡与混同均衡的定义 混同均衡是指在不同的类型的参与者都采取相同的策略时,市场参与者无法区分不同类型的参与者。在这种情况下,信息不对称导致市场参与者无法根据其他参与者的类型来做出决策。导致市场低效率 分离均衡是指不同类型的参与者采取不...
11.24 信息经济学(一)
第一题 什么是逆向选择?核心机制与效果? 逆向选择是指在签订合同前,交易双方存在着市场的信息不对称,处在信息劣势的一方面临着不利的选择环境 核心机制: 买方无法分辨市场上的产品质量,导致只能给出平均价格购买产品 具有高质量产品的卖方不愿意接受低价,于是退出市场 市场上只剩下质量差的产品,最终导致劣币驱逐良币的现象 效果:市场交易量萎缩,市场失灵,资源配置无效率 第二题 逆向选择的案例 二手车市场:由于买方无法判断二手车的质量,只愿意出平均价格,导致优质的二手车商退出市场,市场上只剩下劣质的二手车 信贷市场:由于银行提高利率,导致稳健的企业不想支付高利率的利息,退出市场,但是追求高风险的企业愿意,导致银行高风险 保险市场:由于保险公司提供的是平均的保险价格,身体质量好的人因为价格贵不会去参保,而身体质量差的人会选择参保,导致保验公司赔付率过高亏损 P2P 网贷:由于出借人无法区分借贷人的信用,导致信用较差的借贷人提供高利率,信用好的借贷人无法提供高利率而退出市场,导致平台高风险 电商平台:由于质量差的电商平台选择刷单、刷好评,消费者无法区分质量好坏,而导致质量好的产...
复习
第一题 什么是逆向选择?核心机制与效果? 逆向选择是指在签订合同前,交易双方存在着市场的信息不对称,处在信息劣势的一方面临着不利的选择环境 核心机制: 买方无法分辨市场上的产品质量,导致只能给出平均价格购买产品 具有高质量产品的卖方不愿意接受低价,于是退出市场 市场上只剩下质量差的产品,最终导致劣币驱逐良币的现象 效果:市场交易量萎缩,市场失灵,资源配置无效率 第二题 逆向选择的案例 二手车市场:由于买方无法判断二手车的质量,只愿意出平均价格,导致优质的二手车商退出市场,市场上只剩下劣质的二手车 信贷市场:由于银行提高利率,导致稳健的企业不想支付高利率的利息,退出市场,但是追求高风险的企业愿意,导致银行高风险 保险市场:由于保险公司提供的是平均的保险价格,身体质量好的人因为价格贵不会去参保,而身体质量差的人会选择参保,导致保验公司赔付率过高亏损 P2P 网贷:由于出借人无法区分借贷人的信用,导致信用较差的借贷人提供高利率,信用好的借贷人无法提供高利率而退出市场,导致平台高风险 电商平台:由于质量差的电商平台选择刷单、刷好评,消费者无法区分质量好坏,而导致质量好的产...
git学习
git 学习,笔记参考 Peter Cottle 的:https://learngitbranching.js.org/?locale=zh_CN&NODEMO= Git branch git 的分支非常轻量,只是指向某一个提交记录。 也就是相当于一个指针,指向一个 commit,git checkout 是切换分支。 再次进行 git commit 的时候,main 会更新,但是分支不会更新。 Git merge 将两个分支合并到一起。在 Git 中合并两个分支时会产生一个特殊的提交记录,它有两个 parent 节点。 **创建新分支 **bugFix **用 **git checkout bugFix 命令切换到该分支 提交一次 **用 **git checkout main 切换回 main 再提交一次 **用 **git merge 把 bugFix 合并到 main 必须先创建分支,再切换分支,才能提交 注意的是 git merge 的时候需要 checkout 到被合并的分支(也就是主分支)上。 Git rebase **第二种合并分支的方法是 **...
量子计算学习
1.1 量子计算原理 量子比特概念介绍 量子计算是一种基于量子力学基本原理的信息处理范式,它利用量子叠加、量子纠缠和量子干涉等现象,解决经典计算机无法高效处理的问题。 在经典计算机中,信息的基本单元是比特(bit),只以 0 和 1 两种可能的形式存储信息。而在量子计算中,基本单元是量子比特(Qubit),它可以存储 0 和 1 的任何叠加状态(比如 64% 可能是 1,36% 可能是 0),使得量子计算在处理信息时拥有巨大的并行计算能力。 经典比特 (1)表示为二进制状态(0 或 1),如开关的“开/关”; (2)物理载体通常有晶体管的高低电压,磁盘的南北极磁化方向等; (3)N 个经典比特只能存储 1 个 N 位状态。 量子比特 (1)可以表示为叠加态(α|0⟩ + β|1⟩),其中 α 和 β 是复数概率幅,满足 |α|^2 + |β|^2 = 1; 量子态特性 (1)量子叠加 量子态可以是两个或多个不相容的经典态的叠加,比如 0 和 1 的叠加,这使得量子计算机可以指数级的并行处理加速。 数学描述 |ψ⟩ = α|0⟩ + β|1⟩ n 个量子比特:可同时表示 2^n 个...
llm前置知识-RNN
循环神经网络(Rerrent Neural Network, RNN) **是神经网络的一种,****RNN 对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,**利用了 RNN 的这种能力,使深度学习模型在解决语音识别、语言模型、机器翻译以及时序分析等 NLP 领域的问题时有所突破。 A. 挖掘“时序信息” (Mining Temporal Information) 这指的是 RNN 处理数据****顺序的能力。传统的神经网络(如全连接网络)在处理输入时,通常不考虑元素的顺序。例如,对于句子“我打你”和“你打我”,传统网络可能会得到相似的表示,因为它忽略了词序。 RNN 通过其独特的****循环结构解决了这个问题: 链式处理:RNN 像人阅读一样,一个词一个词地处理序列。 隐藏状态(记忆):RNN 的核心是一个“隐藏状态”(Hidden State),可以看作是网络的记忆。在处理序列的每一步,RNN 都会将当前的输入信息和上一步的记忆结合起来,形成新的记忆,然后传递给下一步 。 简单来说,当 RNN 处理到“你”这个词时,它的记忆里已经包含了“我”和“打...
llm神经网络深度学习
下面来讨论一下隐藏层的节点数设计。在设计一个神经网络时,输入层的节点数需要与特征的维度匹配,输出层的节点数要与目标的维度匹配。而中间层的节点数,却是由设计者指定的。因此,“自由”把握在设计者的手中。但是,节点数设置的多少,却会影响到整个模型的效果。如何决定这个自由层的节点数呢?目前业界没有完善的理论来指导这个决策。一般是根据经验来设置。较好的方法就是预先设定几个可选值,通过切换这几个值来看整个模型的预测效果,选择效果最好的值作为最终选择。这种方法又叫做 Grid Search(网格搜索)。 ** 了解了两层神经网络的结构以后,我们就可以看懂其它类似的结构图。例如 EasyPR 字符识别网络架构(下图)。** 下面简单介绍一下两层神经网络的训练。 ** 在 Rosenblat 提出的感知器模型中,模型中的参数可以被训练,但是使用的方法较为简单,并没有使用目前机器学习中通用的方法,这导致其扩展性与适用性非常有限。从两层神经网络开始,神经网络的研究人员开始使用机器学习相关的技术进行神经网络的训练。例如用大量的数据(1000-10000 左右),使用算法进行优化等等,从而使得模型训练...
llm-神经网络
由于实习等一系列事情,leetcode 更新暂时延缓,只保留每日刷一道题,知识点学习暂且搁置 下面是 llm 前置知识,在这部分结束后,我将更新经典论文阅读。 神经网络: 让我们来看一个经典的神经网络。这是一个包含三个层次的神经网络。红色的是****输入层,绿色的是输出层,紫色的是中间层(也叫隐藏层)。输入层有 3 个输入单元,隐藏层有 4 个单元,输出层有 2 个单元。 在开始介绍前,有一些知识可以先记在心里: 设计一个神经网络时,输入层与输出层的节点数往往是固定的,中间层则可以自由指定; 神经网络结构图中的拓扑与箭头代表着****预测过程时数据的流向,跟训练时的数据流有一定的区别; 结构图里的关键不是圆圈(代表“神经元”),而是连接线(代表“神经元”之间的连接)。每个连接线对应一个不同的****权重(其值称为权值),这是需要训练得到的。 除了从左到右的形式表达的结构图,还有一种常见的表达形式是从下到上来表示一个神经网络。这时候,输入层在图的最下方。输出层则在图的最上方,如下图: 神经元模型是一个包含输入,输出与计算功能的模型。输入可以类比为神经元的树突,而输出可以类比...
