出版需要评估手稿的定量框架

这就是为什么计算机使书本人感到恐惧的原因。

任何优秀的采编编辑都会反复遇到两个噩梦:(1)选择发布损失很多钱的非常糟糕的手稿,以及(2)选择通过一个很好的手稿,然后再使别人赚很多钱。 Litrejections.com是追踪梦想的坟墓,Litrejections.com是一个追踪畅销书和屡获殊荣的书籍的网站,这些书籍最初被拒绝数十甚至数百次。 它可能出没了:在他们的内心深处,没有人认为他们已经足够聪明,可以将“ 哈利·波特”和“哲学家的石头”从栈顶选出来。

哈利·波特(Harry Potter)是新事物,以前从未见过出版-新作家,新故事。 试想一下,写一个简短而吸引人的销售手法来总结哈利·波特的所有内容 是:“孤立的哈利·波特学会了潜在的魔法才能,与可怕的姨妈和叔叔一起离开了单调的二手生活,发现了隐藏在砖墙后面的隐藏而奇妙的世界。” — 认真地讲,它永远是砖墙 –”但这是一个比他想象的更加黑暗和危险的世界。”

不完全简短。 让我们再试一次:“’你是个巫师,哈利,’一个留着浓密胡须的大个子男人说。 这样就开始了充满锁门,黑暗魔法和神秘色彩的令人愉快的冒险。 妖娆。”

我可以再写一遍,但是我认为到此为止,显然没有理智的销售代表会读到这句话,然后说:“是的,这听起来确实很有希望。 毫无疑问,正如LitRejections报道的那样,这需要布鲁姆斯伯里(Bloomsbury)编辑的八岁女儿才能出版那本书。

对于在Bloomsbury之前的12家出版商来说,有一种方法可能会更好。 显然,应将所有手稿交给八岁的孩子,以评估是否有童工现象,应该避免,但如果只有一个孩子足以预言随后的巨大成功,那么至少在大片中,应该有可能建立一个数据模型,该模型可以帮助编辑者评估手稿,而无需诉诸八岁孩子的超常智慧(我在这里绝不是在讽刺)。

关于让书如此吸引人的原因,我们有很多不知道。 多年来,我一直在进行非正式研究,询问人们对哈利·波特的热爱是什么。 到目前为止,没有人能给我一个简明的答案,谷歌的快速搜索证实,是的,有很多原因,但没有一个没有这些书就不会吸引人。 他们只是魔术。

从许多方面来看,《哈利·波特》都是教科书中的一个例子,说明了为什么出版始终偏爱“我一看到就会知道”的方法。 如果在经历了数十年的创纪录销售之后,我们仍然不能说为什么人们会真正爱上哈利·波特,那么“我一看到它就会知道”的方法实际上是唯一有希望的方法。

但是情况正在改变。 至少在过去十年中,出版商一直在探索数据驱动出版的世界。 Nielsen BookScan成立于2001年,其追踪图书销售的规模前所未有,其加拿大同行BookNet Canada于2002年紧随其后。这两个组织都允许出版商不仅审查自己的销售,而且审查销售来自大量零售商的其他发布商。 因此,即使数字不是完美的,也永远不会是完美的,他们的创造极大地改善了有关图书销售的信息收集质量。

出版商还开始研究其他类型的数据,特别是社交媒体趋势和互联网分析。 一些项目(例如Cengage Learning)已启动了长期的定性研究计划,以寻找改善学生学习质量的方法。 Jellybooks正在研究读者如何与文本互动。

但是,到目前为止,所有更好地掌握市场的尝试都集中在读者身上:读者想要什么,读者如何找到书,以及读者如何消费自己设法找到的东西。 无疑,这是一个重要的难题。 光是果冻书就足以告诉出版商他们在第一本书《哈利·波特》中的内容。 但这还不是全部。

如果我们想知道是什么使书更具吸引力,那么读者分析不是正确的数据集。 读者本质上是可变的,但是他们都有一个共同点,那就是文本本身。 这意味着我们需要研究文本。

研究人员开始开发可以告诉我们很多有关文本的工具。 他们发现您的高中英语老师在绘制故事情节时并没有完全脱离基础:事实上,有六种基本的情感情节图在整个故事中一次又一次地出现历史。 这些弧线甚至与故事的成功相关。

麦吉尔大学.txtLAB数字人文实验室的主任安德鲁·派珀(Andrew Piper)已使用计算分析(尤其是网络科学,机器学习和图像处理)来对出版的图书得出许多有趣的见解。 在他的文章“文化资本的运作方式:获奖小说,畅销书和阅读时间”中,他和合著者伊娃·波特伦兰斯(Eva Portelance)解释了这种分析如何引起获奖小说中有趣的趋势:它们都怀旧了。 相比之下,畅销书更着眼于当下,拥有更多的人物和更多的对话。 派珀(Piper)也使用类似的技术来正确预测谁将赢得吉勒奖。

与“艺术是不可知的”这一观点形成鲜明对比的是,派珀(Piper)经常对他的研究提出异议,但这一发现表明,这类工具可能非常有用。 应该是人类现象的东西可以用机器复制。 也许不是很完美,但是人类的过程也不是。 有了这些信息,就有可能以更严格的眼光看待发布决策。

出版商只能追求这种艺术神秘感。

Piper的研究还发现了其他趋势,包括书评中强烈的性别陈规定型观念。 与年度出版商每周出版行业薪水调查的结果相结合,就可以清楚地知道这种定量研究在出版界可以发挥什么作用:它可以使我们警觉到我们放任自己的强烈偏见的地方。

出版业绝不是白人。 从2014年到2015年,接受调查的白人受访者百分比从89%下降到88%,下降了1%。 出版业的男性中白人占94%,而女性则是86%。总体而言,女性占受访者的74%,但仅占管理层的54%。

糟糕透顶

在这种情况下,我们必须对收购过程进行某种数据检查,因为直觉是通过经验来告知的,而加拿大白人女性编辑的经验似乎不太像男性中国移民作家的经验。 。 而且,如果编辑不能依靠经验和直觉,那么她只能依靠数据或现有故事来了解那个人的文字是正确的。

尼日利亚作家Chimamanda Ngozi Adichie在TED演讲中雄辩地谈到了一个相关问题:“一个单一故事的危险。”她说,一个单一故事表明“一个人作为一件事,只有一个人”她说,我们需要许多关于许多不同人的不同故事,以便我们欣赏人类的全方位经验。

根据我们讲述非洲文化的单一故事,阿迪奇提供了许多关于人们如何回应她的轶事,但没有(1)去非洲获得一些第一手知识或(2)与某人交谈(最好是冗长的交谈)谁拥有第一手知识,一定要问正确的问题,所以很难知道我们什么时候得到一个故事。 有整个学科致力于此任务,但我们仍然屡屡陷入同一陷阱。

作为进一步的证据,派珀发现,至少在MFA毕业生中,非白人声音是同质的,与白人声音完全无法区分。 而且,在非MFA毕业生和MFA毕业生中,分别有99%和96%的书籍中,男性角色超过女性角色。

我会暂停片刻,让它沉入其中。

认真地: 99%?! 以这种速度,应该从月球上看到性别偏见。 而这个行业几乎占女性的四分之三,更多来自编辑部。

我们无法-从未-使用我们的直觉发现了这些问题的严重性这一事实清楚地表明,我们应该仔细,认真地研究一下本能告诉我们的内容。 我们可能不得不面对这样一个事实,我们的直觉从此以后就没有发展过。

数据可以帮助我们回答以下问题:“这本书不好还是只是有所不同?”我们应该给它一个机会去做。

*

因此,当我们暂时接受问题和数据可能会帮助我们解决问题时,在发布环境中此数据分析将是什么样?

显然有一些障碍需要克服。 首先是弄清楚到底哪种工具最有用,而且误导最少。 当然,这些工具需要随着时间的推移而发展,但是鉴于这些情感弧线与标题的长期成功之间的现有关联,情感弧线研究将是一个不错的起点。 同样,Piper的涉及畅销书和获奖者的研究几乎肯定会在收购过程中有用。 这两个工具都可以告诉我们有关某个故事的一些信息,特别是可以将其与其他故事进行比较,从而有助于定位。 他们还可以确定哪些区域需要最多的工作。

对于接受未经请求的手稿的房屋,在手稿到达编辑之前自动对其进行分析将是合乎逻辑且低风险的起点。 评估出版的书名并将结果与​​实际销售额进行比较也将有所帮助。

最后,应将数据处理到现有系统中。 出版商已经在跟踪销售,社交媒体和市场营销,这种以书为中心的数据可以与更常规的数据一起非常成功地运作,尤其是随着时间的推移趋势开始发展时。 毕竟,对书籍本身进行分析仍然是要确定什么使读者感到愉快。

读者会阅读任何东西; 真的没有什么可担心的。

解决一些可能的问题

1.这是一个非常复杂的问题的过分简化。

并非完全如此-销售处理方式是对一个非常复杂的问题的过度简化,并且计算机可以处理的复杂性要比人们处理的复杂得多,至少在某些方面。 无论如何,有必要在某些时候简化事情。 毕竟,销售手柄是有目的的,即使它只是一个20字的句子,目的是解释整本小说。

2.小​​说家会讨厌这一点。

到目前为止,还没有那么多。 库尔特·冯内古特(Kurt Vonnegut)通过讲故事的情感弧度(以及他被拒绝的硕士论文)开始了整件事,魁北克的作家参加了一次挑战,写作像美国畅销书一样,具有多样但极富创造力的结果。 在某些方面,更多地了解艺术形式可能会激发灵感。

3.计算机无法知道艺术品的外观。 艺术不是为计算机创建的。

纠正:计算机无法像人类一样理解和体验艺术,但是根据证据,知道艺术是什么样的,对计算机来说是完全可能的。 此外,即使我们使用计算机来检查艺术品,所产生的见解也不会比原始艺术品更能为其带来益处。

4.您获得的数据仅与您输入的数据一样好。

的确如此,因此(在许多其他众多原因中)出版商不应立即解雇所有的收购编辑,而应由计算机科学家取代他们。 寻找最佳的手稿评估系统可能会涉及一些反复试验。 但是与此同时,出版商可以学到一些东西,无论是他们正在出版的书籍还是他们所要出版的文化。而且,您必须设计一个非常糟糕的系统,而实际上并不能克服某些文化偏见。研究已经揭示; 信息本身就非常有价值。

5.这会终止发布。

关于复杂的销售跟踪的出现是否杀死出版的观点不一。 肯定有人这样认为。 但是,正如本文所指出的那样,数据确实是双向的:大型跨国公司抛弃了许多中产阶级作家,但印度独立人士可以自由选择他们,从长远来看,这可能会为整个行业带来活力。 除非我们尝试类似的方法,否则无法确定结果会是什么。 同时,亚马逊正在学习有关读者的所有知识,然后使用这些信息将发布者当作人质(请参阅《纽约客》的这篇文章 ,全面了解发布者与亚马逊之间的相互依存关系)。 从某种程度上说,出版商不能不考虑这些问题。

最重要的是,出版商应该记住,赢得所有奖项并获得《纽约时报》所有评论的书籍都具有怀旧之情并非偶然。 这些书满足了文学读者的口味,而文学文化本身不只是一种怀旧色彩。 乔治·帕克(George Packer)在他的《纽约客》文章中援引一位资深编辑的话说:“书籍出版总是带有衰落时代的言论。 怀旧和害怕世界的现况可能会非常危险,特别是对于负责与现在文化互动的文化产业而言。

出版商同样应该记住报价的第二部分:“技术人员-如果您不理会我,给我我想要的东西,那总会更好。 永远都是完美的。”最终,它看起来非常像这样:

小心。

最终,尽管如此,计算机生成的数据有点像怀旧之情,如果您从中学习的话,那就很好。

*为西蒙弗雷泽大学 MPub撰写

参考文献

Adchiie,Chimamanda Ngozi。 “一个单一故事的危险。” TEDx, 2009年10月。https: //www.ted.com/talks/chimamanda_adichie_the_danger_of_a_single_story/transcript?tranuage = zh-CN ,2016年11月19日访问。

阿尔特(Alter),亚历山大(Alexander)和卡尔·罗素(Karl Russell)。 “发行商的钱球:我们的阅读方式的详细介绍。” 纽约时报 ,2016年3月14日。http://www.nytimes.com/2016/03/15/business/media/moneyball-for-book-publishers有关详细信息,请参见2016年11月19日。

理发师,约翰。 “为什么图书购买统计可能扼杀下一位伟大的作家。” 《环球邮报 》,2012年12月27日。http://www.theglobeandmail.com/arts/why-book-buying-stats-might-stifle-the-next -great-author / article6755208 /?cmpid = rss1&utm_source = feedburner&utm_medium = feed&utm_campaign = Feed%253A + TheGlobeAndMail-Entertainment +%2528The + Globe + and + Mail +-+ Arts + News%2529于2016年11月19日访问。

BookNet加拿大。 “关于我们。” http://www.booknetcanada.ca/about-us/ 2016年11月19日访问。

查曼·安德森(Charman-Anderson),Suw。 “尼尔森BookScan能否在数字时代保持相关性?” 福布斯 ,2013年1月13日。http://www.forbes.com/sites/suwcharmananderson/2013/01/07/can-nielsen-bookscan-stay-relevant-in -the-digital-age /#13e8b3d63ba8访问2016年11月19日。

邓德·马芬 “怀旧怀旧”。YouTube,2013年11月19日。https://www.youtube.com/watch?v=qyDcSqZySX8,2016年11月19日访问。

哈伦,艾伦。 “图书行业对数据智能的追求。” 图书业务 ,2015年2月1日。http://www.bookbusinessmag.com/article/the-book-industry-s-quest-data-intelligence/ 2016年11月19日访问。

拉弗朗斯,艾德丽安。 “由人工智能确定的叙事中的六个主要弧线” ,大西洋 ,2016年7月12日。http://www.theatlantic.com/technology/archive/2016/07/the-six-main-arcs-in-由计算机标识的故事/ 490733 /,2016年11月19日访问。

LitRejections。 “最初被拒绝的畅销书。” http://www.litrejections.com/best-sellers-initially-rejected/于2016年11月19日访问。

麦吉尔大学。 .txtLAB数字人文实验室。 http://txtlab.org/访问2016年11月19日。

米利奥特,吉姆。 “ PW出版业薪酬调查,2016年。” Publishers Weekly ,2016年9月16日。http://www.publishersweekly.com/pw/by-topic/industry-news/publisher-news/article/71506-the-pw -publishing-industry-salary-survey-2016.html于2016年11月19日访问。

Nielsen BookScan UK。 http://www.nielsenbookscan.co.uk/controller.php?page=48访问于2016年11月19日。

帕克,乔治。 “便宜的话。” 《纽约客 》,2014年2月17日至24日。http://www.newyorker.com/magazine/2014/02/17/cheap-words,2016年11月19日访问。

佩雷拉,加布里埃拉。 “第107集:MFA是否会影响您的写作? 数据真正告诉我们的内容–采访安德鲁·派珀(Andrew Piper) 。diyMFA ,2016年8月10日。http://diymfa.com/podcast/episode-107-will-mfa-affect-writing-data-really-tell-us -interview-andrew-piper访问于2016年11月19日。

Piper,Andrew和Eva Portelance。 “文化资本的运作方式:获奖小说,畅销书和阅读时间。” Post45 ,2016年5月10日。http://post45.research.yale.edu/2016/05/how-cultural-capital-works-prizewinning -小说畅销书和阅读时间/访问于2016年11月19日。

派珀,安德鲁。 “发展挑战。 如何像美国畅销书一样写作。” .txtLAB @ McGill ,2016年1月13日。http://txtlab.org/?p=581 2016年11月19日访问。

派珀,安德鲁。 “发展挑战。 如何像美国畅销书一样写作。” .txtLAB @ McGill ,2016年1月13日。http://txtlab.org/?p=596 ,2016年11月19日访问。

里根(Reagan),安德鲁(Andrew J.),刘易斯·米切尔(Lewis Mitchell),狄兰·基利(Dilan Kiley),克里斯托弗·M·丹佛斯(Christopher M.Danforth)和彼得·谢里丹·多兹(Peter Sheridan Dodds)。 “故事的情感弧度由六个基本形状决定。” arXiv 2016年9月26日。https://arxiv.org/pdf/1606.07772v3.pdf访问2016年11月19日。

因此,理查德·简(Richard Jean)和安德鲁·派珀(Andrew Piper)。 “ MFA如何改变了当代小说?” ,大西洋 ,2016年3月6日。http://www.theatlantic.com/entertainment/archive/2016/03/mfa-creative-writing/462483/于2016年11月19日访问。

因此,理查德·简(Richard Jean)和安德鲁·派珀(Andrew Piper)。 “妇女写家庭,男人写战争。” 新共和国 ,2016年4月8日。https://newrepublic.com/article/132531/women-write-family-men-write-war于2016年11月19日访问。