对比汇总 (copy)
口径 M3A T3A official_pureshot 模型 doubao-seed-1-8-251228 doubao-seed-1-8-251228 doubao-seed-1-8-251228 测试任务数 3 3 3 Query 次数 15 15 9 平均耗时(s) 8.259 6.571 8.329 P50 耗时(s) 7.930 6.008 8.374 P90 耗时(s) 9.062 8.290 10.137 平均 prompt_tokens 5898.5 4823.3 7921.9 平均 completion_tokens 171.6 171.3 128.8 平均 total_tokens 6070.1 4994.6 8050.7 平均图片数 / query 2 0 5 补充范围 M3A T3A 耗时范围(s) 6.041 ~ 12.659 4.540 ~ 11.153 total_tokens 范围 5443 ~ 6673 3168 ~ 6990 指标 M3A(改版,img=2)...
测试失败
seed 1.8:失败 33,成功 83,成功率 71.55% seed 1.6:失败 43,成功 73,成功率 62.93% seed 1.8 失败: ClockTimerEntry ExpenseAddMultipleFromGallery ExpenseAddMultipleFromMarkor MarkorAddNoteHeader MarkorChangeNoteContent MarkorCreateNoteAndSms MarkorMergeNotes MarkorTranscribeVideo OsmAndMarker OsmAndTrack RecipeAddMultipleRecipesFromImage RecipeAddMultipleRecipesFromMarkor RecipeAddMultipleRecipesFromMarkor2 RecipeDeleteDuplicateRecipes2 RecipeDeleteDuplicateRecipes3 RetroPlaylistDuration SimpleCalendarAddOneEventRe...
111
111
111
在线测试
雅思写作2
小作文 开头段 线性图 the graph/ the line chart 柱状图 the bar chart 饼图 the pie chart 动词 shows=illustrates 不用抄below 数据对象 数值和百分比都可以用 the figure for 固定搭配 数值 the number of 或者 the amount of 百分比 the proportion of 或者 the percentage of 或者 the share of 地点和时间 先地点后时间 overview overall,over/during this period,while the number of X decreased, the popularity of X increased to varying degrees ,with ultimately/largely becoming the most favored /popular / preferred choice 升降和极值 主体段 主体段要写两个 第一个主体段,要用as seen...
雅思阅读2
单词与短语 across 横跨 universality 普遍 group setting 指的是社会背景 recording studio 录音棚 pairs of 两人一组 consist 持续的 similar consistent stable disciplines 学科 dominant 主导的 submissive 屈从的 fraternity 社团 take a turn 轮流 mildly insulting 轻微侮辱 be rated as 被认为是 fixed amount of time 限时 做题技巧 from to是例子,例子一般不是答案 读到实验的时候,一般要看实验结论,
项目学习——skills
这一节主要是在讲skills。 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748class SkillLoader: def __init__(self, skills_dir: Path): self.skills_dir = skills_dir self.skills = {} self._load_all() def _load_all(self): if not self.skills_dir.exists(): return for f in sorted(self.skills_dir.rglob("SKILL.md")): text = f.read_text() meta, body = self._parse_frontmatter(text) ...
项目学习——subagent
在进入正式的subagent学习之前,其实有必要对messages和response做一个说明。 messages 是一个列表结构,表示传递给模型的上下文信息,每一项都包含 role(角色,如 user / assistant / system)和 content(具体内容)。例如 messages[0] 就代表用户当前输入的一句话。在调试器中看到的 0 = {...},本质上就是这个列表中的第一个元素,即你发给模型的请求内容。 而 response 则是模型返回的结果,通常是一个结构化对象而不是简单字符串。它包含了模型 ID、唯一请求 ID,以及最关键的 content 字段。不同于传统接口直接返回文本,一些模型(如 qwen3.5-plus)会以“块”的形式返回内容,比如 ThinkingBlock(思考过程)和 TextBlock(最终回答)。此外,调试器中看到的 special variables 和 function variables 并不是业务数据,它们只是 Python 对象自带的底层属性和方法(如 __class__、append 等),主...
雅思口语1
流利度是最重要的。流利度由连接词体现。 进阶连接词:because表强因果,比较正式,我们可以用simply because,mainly because,basically 表示转折:even though,still but still, having said that ,that said I reckon(I think) , I assume, I suppose for example -like,let’s say so- and that’s why 词汇多样性 very - quite,incredibly (I eat out quite often) convenient - hassle-free 省麻烦的 reloable / favorite -go-to difficult - struggle (struggle with homework) choose - go for prefer -would rahter do happy - over moon important -necessary be good at -have a real...
规划与协调-todowrite
1234567891011121314151617181920212223242526272829303132333435# -- TodoManager: structured state the LLM writes to --class TodoManager: def __init__(self): self.items = [] def update(self, items: list) -> str: if len(items) > 20: raise ValueError("Max 20 todos allowed") validated = [] in_progress_count = 0 for i, item in enumerate(items): text = str(item.get("text", "")).strip() status...
