当前位置：首页 > 数码 > EXPLAIN-代价模型-MySQL-浅析-提早预知索引优化战略-优化查问性能-告别自觉经常使用 (explain)

EXPLAIN-代价模型-MySQL-浅析-提早预知索引优化战略-优化查问性能-告别自觉经常使用 (explain)

admin1年前 (2024-04-15)数码185

背景

在中，当咱们为表创立了一个或多个索引后，通常须要在索引定义成功后，依据详细的数据状况口头EXPLN命令，才干观察到数据库实践经常使用哪个索引、能否经常使用索引。这使得咱们在参与新索引之前，不可提早预知数据库能否能经常使用希冀的索引。更为蹩脚的是，有时甚至在参与新的索引后，数据库在某些查问中会经常使用它，而在其余查问中则不会经常使用，这种状况下，咱们不可确定索引能否施展了预期的作用，让人感到十分苦恼。这种状况基本上象征着MySQL并没有为咱们选择最优的索引，而咱们不得不在茫茫数据中探索，试图找到疑问的症结所在。咱们或许会尝试调整索引，甚至删除索引，而后从新参与，宿愿MySQL能从中找到最优的索引选择。但是，这样的环节既耗时又费劲，而且往往收效甚微。

假设在参与索引之前，咱们能够预知索引的经常使用状况，那么关于表设计将大有裨益。咱们可以在设计表结构时，愈加明白地知道应该选择哪些索引，如何优化索引，以提高查问效率。咱们不再须要依赖自觉尝试和猜想，而是可以基于实践的数据和查问状况，做出愈加理智的决策。因此，关于MySQL用户来说，能够预知索引走势的需求十分迫切。咱们宿愿能有一种方法，能够让咱们在参与索引之前，就清楚地了解MySQL将如何经常使用索引，以便咱们能够更好地优化表结构，提高查问效率。这将极大地减轻咱们的上班累赘，提高咱们的上班效率，让咱们能够愈加专一于业务逻辑的处置，而不是在索引的陆地中挣扎。

为了处置这个疑问，咱们可以深化钻研MySQL的索引选择机制。实践上，这个机制的外围就是代价模型，它经过一个公式来选择索引的选择战略。相关于MySQL其余复杂的概念，代价模型成功起来要便捷得多。相熟代价模型之后，咱们可以预先了解MySQL在口头查问时会如何选择索引，从而更有效地启动索引优化。在接上去的文章中，我将结合近期启动索引优化的详细案例，来详细解释如何运用代价模型来优化索引。

MySQL代价模型浅析

MySQL数据库关键由4层组成：

1.衔接层：客户端和衔接服务，关键成功一些相似于衔接处置、授权治理、以及相关的安保方案。

2.服务层：关键成功大少数的外围服务性能，如SQL接口，并成功缓存的查问，SQL的剖析和优化以及外部函数的口头。

3.引擎层：担任MySQL中数据的存储和提取，主机经过AP1与存储引擎启动通讯。

4.存储层：将数据存储文件系统上，并成功与存储引擎的交互。

索引战略选择在SQL优化器启动的

SQL优化器会剖析一切或许的口头方案，选择老本最低的口头，这种优化器称之为：CBO（Cost-basedOptimizer，基于老本的优化器）。

Cost=ServerCost+EngineCost=CPUCost+IOCost

其中，CPUCost示意计算的开支，比如索引键值的比拟、记载值的比拟、结果集的排序......这些操作都在Server层成功；

IOCost示意引擎层IO的开支，MySQL可以经过区分一张表的数据能否在内存中，区分计算读取内存IO开支以及读取磁盘IO的开支。

源码简读

MySQL的数据源代码驳回了5.7.22版本，后续的代价计算公式将基于此版本启动参考。

opt_costconstants.cc【代价模型——计算所需代价计算系数】

在Server_cost_constants类中定义为静态常质变量的老本常量的值。假设主机治理员没有在server_cost表中参与新值，则将经常使用这些自动老本常数值。

5.7版本开局可用从数据库加载常量值，该版本前经常使用代码中写的常量值

//计算合乎条件的⾏的代价，⾏数越多，此项代价越⼤

constdoubleServer_cost_constants::ROW_EVALUATE_COST=0.2;

//键⽐较的代价，例如排序

constdoubleServer_cost_constants::KEY_COMPARE_COST=0.1;

内存暂时表的创立代价

经过基准测试，创立Memory暂时表的老本与向表中写入10行的老本一样高。

constdoubleServer_cost_constants::MEMORY_TEMPTABLE_CREATE_COST=2.0;

//内存暂时表的⾏代价

constdoubleServer_cost_constants::MEMORY_TEMPTABLE_ROW_COST=0.2;

外部myisam或innodb暂时表的创立代价

创立MyISAM表的速度是创立Memory表的20倍。

constdoubleServer_cost_constants::DISK_TEMPTABLE_CREATE_COST=40.0;

外部myisam或innodb暂时表的⾏代价

当行数大于1000时，按顺序生成MyISAM行比生成Memory行慢2倍。但是，没有十分大的表的基准，因此激进地将此系数设置为慢5倍（即老本为1.0）。

constdoubleServer_cost_constants::DISK_TEMPTABLE_ROW_COST=1.0;

在SE_cost_constants类中定义为静态常质变量的老本常量的值。假设主机治理员没有在engine_cost表中参与新值，则将经常使用这些自动老本常数值。

//从主内存缓冲池读取块的老本

constdoubleSE_cost_constants::MEMORY_BLOCK_READ_COST=1.0;

//从IO设施（磁盘）读取块的老本

constdoubleSE_cost_constants::IO_BLOCK_READ_COST=1.0;

opt_costmodel.cc【代价模型——局部触及方法】

doubleCost_model_table::page_read_cost(doublepages)const

DBUG_ASSERT(m_initialized);

DBUG_ASSERT(pages>=0.0);

//预算汇集索引内存中页面数占其一切页面数的比率

constdoublein_mem=m_table->file->table_in_memory_estimate();

constdoublepages_in_mem=pages*in_mem;

constdoublepages_on_disk=pages-pages_in_mem;

DBUG_ASSERT(pages_on_disk>=0.0);

constdoublecost=buffer_block_read_cost(pages_in_mem)+

io_block_read_cost(pages_on_disk);

returncost;

doubleCost_model_table::page_read_cost_index(uintindex,doublepages)const

DBUG_ASSERT(m_initialized);

DBUG_ASSERT(pages>=0.0);

doublein_mem=m_table->file->index_in_memory_estimate(index);

constdoublepages_in_mem=pages*in_mem;

constdoublepages_on_disk=pages-pages_in_mem;

constdoublecost=buffer_block_read_cost(pages_in_mem)+

io_block_read_cost(pages_on_disk);

returncost;

handler.cc【代价模型——局部触及方法】

//汇集索引扫描IO代价计算公式

Cost_estimatehandler::read_cost(uintindex,doubleranges,doublerows)

DBUG_ASSERT(ranges>=0.0);

DBUG_ASSERT(rows>=0.0);

constdoubleio_cost=read_time(index,static_cast<uint>(ranges),

static_cast<ha_rows>(rows))*

table->cost_model()->page_read_cost(1.0);

Cost_estimatecost;

cost.add_io(io_cost);

returncost;

//表全量扫描代价相关计算（IO-cost）

Cost_estimatehandler::table_scan_cost()

constdoubleio_cost=scan_time()*table->cost_model()->page_read_cost(1.0);

Cost_estimatecost;

cost.add_io(io_cost);

returncost;

//笼罩索引扫描代价相关计算

Cost_estimatehandler::index_scan_cost(uintindex,doubleranges,doublerows)

DBUG_ASSERT(ranges>=0.0);

DBUG_ASSERT(rows>=0.0);

constdoubleio_cost=index_only_read_time(index,rows)*

table->cost_model()->page_read_cost_index(index,1.0);

Cost_estimatecost;

cost.add_io(io_cost);

returncost;

预算在指定keynr索引启动笼罩扫描（不须要回表），扫描records条记载，须要读取的索引页面数

@paramkeynrIndexnumber

@paramrecordsEstimatednumberofrecordstoberetrieved

Estimatedcostof'indexonly'scan

doublehandler::index_only_read_time(uintkeynr,doublerecords)

doubleread_time;

uintkeys_per_block=(stats.block_size/2/

(table_share->key_info[keynr].key_length+ref_length)+

read_time=((double)(records+keys_per_block-1)/

(double)keys_per_block);

returnread_time;

sql_planner.cc【用于ref访问类型索引费用计算】

doubletmp_fanout=0.0;

if(table->quick_keys.is_set(key)&&!table_deps&&//(C1)

table->quick_key_parts[key]==cur_used_keyparts&&//(C2)

table->quick_n_ranges[key]==1+MY_TEST(ref_or_null_part))//(C3)

tmp_fanout=cur_fanout=(double)table->quick_rows[key];

//Checkifwehavestatisticaboutthedistribution

if(keyinfo->has_records_per_key(cur_used_keyparts-1))

cur_fanout=keyinfo->records_per_key(cur_used_keyparts-1);

if(!table_deps&&table->quick_keys.is_set(key)&&//(1)

table->quick_key_parts[key]>cur_used_keyparts)//(2)

trace_access_idx.add("chosen",false)

.add_alnum("cause","range_uses_more_keyparts");

is_dodgy=true;

tmp_fanout=cur_fanout;

rec_per_key_trec_per_key;

if(keyinfo->has_records_per_key(

keyinfo->user_defined_key_parts-1))

rec_per_key=

keyinfo->records_per_key(keyinfo->user_defined_key_parts-1);

rec_per_key=

rec_per_key_t(tab->records())/distinct_keys_est+1;

if(tab->records()==0)

tmp_fanout=0.0;

elseif(rec_per_key/tab->records()>=0.01)

tmp_fanout=rec_per_key;

constdoublea=tab->records()*0.01;

if(keyinfo->user_defined_key_parts>1)

tmp_fanout=

(cur_used_keyparts*(rec_per_key-a)+

a*keyinfo->user_defined_key_parts-rec_per_key)/

(keyinfo->user_defined_key_parts-1);

tmp_fanout=a;

set_if_bigger(tmp_fanout,1.0);

cur_fanout=(ulong)tmp_fanout;

if(ref_or_null_part)

//Weneedtodotwokeysearchestofindkey

tmp_fanout*=2.0;

cur_fanout*=2.0;

if(table->quick_keys.is_set(key)&&

table->quick_key_parts[key]<=cur_used_keyparts&&

const_part&

((key_part_map)1<<table->quick_key_parts[key])&&

table->quick_n_ranges[key]==1+MY_TEST(ref_or_null_part&

const_part)&&

cur_fanout>(double)table->quick_rows[key])

tmp_fanout=cur_fanout=(double)table->quick_rows[key];

//Limitthenumberofmatchedrows

constdoubletmp_fanout=

min(cur_fanout,(double)thd->variables.max_seeks_for_key);

if(table->covering_keys.is_set(key)

(table->file->index_flags(key,0,0)&HA_CLUSTERED_INDEX))

//Wecanuseonlyindextree

constCost_estimateindex_read_cost=

table->file->index_scan_cost(key,1,tmp_fanout);

cur_read_cost=prefix_rowcount*index_read_cost.total_cost();

elseif(key==table->s->primary_key&&

table->file->primary_key_is_clustered())

constCost_estimatetable_read_cost=

table->file->read_cost(key,1,tmp_fanout);

cur_read_cost=prefix_rowcount*table_read_cost.total_cost();

cur_read_cost=prefix_rowcount*

min(table->cost_model()->page_read_cost(tmp_fanout),

tab->worst_seeks);

handler.cc【用于range访问类型索引费用计算】

handler::multi_range_read_info_const(uintkeyno,RANGE_SEQ_IF*seq,

void*seq_init_param,uintn_ranges_arg,

uint*bufsz,uint*flags,

Cost_estimate*cost)

KEY_MULTI_RANGErange;

range_seq_tseq_it;

ha_rowsrows,total_rows=0;

uintn_ranges=0;

THD*thd=current_thd;

/*DefaultMRRimplementationdoesn'tneedbuffer*/

DBUG_EXECUTE_IF("bug13822652_2",thd->killed=THD::KILL_QUERY;);

seq_it=seq->init(seq_init_param,n_ranges,*flags);

while(!seq->next(seq_it,&range))

if(unlikely(thd->killed!=0))

returnHA_POS_ERROR;

n_ranges++;

key_range*min_endp,*max_endp;

if(range.range_flag&GEOM_FLAG)

min_endp=&range.start_key;

max_endp=NULL;

min_endp=range.start_key.length?&range.start_key:NULL;

max_endp=range.end_key.length?&range.end_key:NULL;

intkeyparts_used=0;

if((range.range_flag&UNIQUE_RANGE)&&//1)

!(range.range_flag&NULL_RANGE))

rows=1;/*therecanbeatmostonerow*/

elseif((range.range_flag&EQ_RANGE)&&//2a)

(range.range_flag&USE_INDEX_STATISTICS)&&//2b)

(keyparts_used=my_count_bits(range.start_key.keypart_map))&&

key_info[keyno].has_records_per_key(keyparts_used-1)&&//2c)

!(range.range_flag&NULL_RANGE))

rows=static_cast<ha_rows>(

table->key_info[keyno].records_per_key(keyparts_used-1));

DBUG_EXECUTE_IF("crash_records_in_range",DBUG_SUICIDE(););

DBUG_ASSERT(min_endp||max_endp);

if(HA_POS_ERROR==(rows=this->records_in_range(keyno,min_endp,

max_endp)))

/*Can'tscanonerange=>can'tdoMRRscanatall*/

total_rows=HA_POS_ERROR;

total_rows+=rows;

if(total_rows!=HA_POS_ERROR)

constCost_model_table*constcost_model=table->cost_model();

/*Thefollowingcalculationisthesameasinmulti_range_read_info():*/

*flags|=HA_MRR_USE_DEFAULT_IMPL;

*flags|=HA_MRR_SUPPORT_SORTED;

DBUG_ASSERT(cost->is_zero());

if(*flags&HA_MRR_INDEX_ONLY)

*cost=index_scan_cost(keyno,static_cast<double>(n_ranges),

static_cast<double>(total_rows));

*cost=read_cost(keyno,static_cast<double>(n_ranges),

static_cast<double>(total_rows));

cost->add_cpu(cost_model->row_evaluate_cost(

static_cast<double>(total_rows))+0.01);

returntotal_rows;

验证公式

创立验证须要的表

CREATETABLE`store_goods_center`

`id`bigint(20)NOTNULLAUTO_INCREMENTCOMMENT'主键id',

`sku_id`bigint(20)NOTNULLCOMMENT'商品skuid',

`station_no`varchar(20)NOTNULLCOMMENT'门店编号',

`org_code`bigint(20)NOTNULLCOMMENT'商家编号',

`extend_field`textCOMMENT'裁减字段',

`version`int(11)DEFAULT'0'COMMENT'版本号',

`create_time`datetimeDEFAULTCURRENT_TIMESTAMPCOMMENT'创立期间',

`create_pin`varchar(50)DEFAULT''COMMENT'创立人',

`update_time`datetimeDEFAULTCURRENT_TIMESTAMPCOMMENT'降级期间',

`update_pin`varchar(50)DEFAULT''COMMENT'降级人',

`yn`tinyint(4)DEFAULT'0'COMMENT'删除标示0:反常1：删除',

`ts`timestampNULLDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMPCOMMENT'期间戳',

PRIMARYKEY(`id`),

UNIQUEKEY`uniq_storegoods`(`station_no`,`sku_id`)USINGBTREE,

KEY`idx_storegoods_org`(`org_code`,`sku_id`,`station_no`),

KEY`idx_sku_id`(`sku_id`),

KEY`idx_station_no_and_id`(`station_no`,`id`)

)ENGINE=InnoDB

DEFAULTCHARSET=utf8mb4COMMENT='门店商品相关表';

经过存储环节初始化测试数据

DELIMITER//

CREATEPROCEDUREcallback()

DECLAREnumINT;

num<=100000DO

INSERTINTOstore_goods_center(sku_id,station_no,org_code)VALUES(num+10000000,floor(50+rand()*(100-50+1)),num);

SETnum=num+1;

口头存储环节生成数据

CALLcallback();

1.全表扫描计算代价公式

计算环节：

//不同引擎计算模式有所区别

//innodb引擎成功handler.h

//预估记载数：ha_innobase::info_low

//页数量：ha_innobase::scan_time【数据总大小(字节)/页大小】

//查问全表数据大小（7880704）

SHOWTABLESTATUSLIKE'store_goods_center';

//查问数据库页大小（自动：16384）

SHOWVARIABLESLIKE'innodb_page_size';

//全表扫描计算代价

//页数量

page=数据总大小(字节)/页大小=7880704/16384=481;

//预估范畴行数（总数据条数：10万，预估数据条数：99827，有必定误差）

records=99827;

//计算总代价

//481*1中的系数1代表从主内存缓冲池读取块的老本（SE_cost_constants::IO_BLOCK_READ_COST=1.0）

//99827*0.2中的系数0.2代表计算合乎条件的⾏的代价（ROW_EVALUATE_COST=0.2）

cost=IO-cost+CPU-cost=(481*1)+(99827*0.2)=481+19965.4=20446.4

验证结果：

explainformat=json

select*fromstore_goods_center;

"cost_info":{"query_cost":"20446.40"}

总结公式：

全表扫描代价=数据总大小/16384+预估范畴行数*0.2

2.笼罩索引扫描计算代价公式

计算环节：

//查问全表数据大小（7880704）

SHOWTABLESTATUSLIKE'store_goods_center';

//查问数据库页大小（自动：16384）

SHOWVARIABLESLIKE'innodb_page_size';

//预估范畴行数（总数据条数：1999，预估数据条数：1999，有必定误差）1999;

records=1999

//keys_per_block计算

//block_size是文件的block大小，mysql默以为16K；

//key_len是索引的键长度；

//ref_len是主键索引的长度；

keys_per_block=(stats.block_size/2/(table_share->key_info[keynr].key_length+ref_length)+1);

//table_share->key_info[keynr].key_length为联结索引，区分是station_no和sku_id

//station_no为varchar(20)且为utf8mb4，长度=20*4+2(可变长度须要加2)=82

//sku_idbigint类型，长度为8

//主键索引为bigint类型，长度为8

keys_per_block=16384/2/(82+8+8)+1≈84

//计算总代价

read_time=((double)(records+keys_per_block-1)/(double)keys_per_block);

read_time=(1999+84-1)/84=24.78;

//计算总代价

//24.78*1中的系数1代表从主内存缓冲池读取块的老本（SE_cost_constants::IO_BLOCK_READ_COST=1.0）

//1999*0.2中的系数0.2代表计算合乎条件的⾏的代价（ROW_EVALUATE_COST=0.2）

cost=IO-cost+CPU-cost=(24.78*1)+(1999*0.2)=24.78+399.8=424.58

验证结果：

explainformat=json

"cost_info":{"query_cost":"424.58"}

总结公式：

keys_per_block=8192/索引长度+1

笼罩索引扫描代价=(records+keys_per_block-1)/keys_per_block+预估范畴行数*0.2

公式简化（去除影响较小的复杂计算）

笼罩索引扫描代价=(records*触及索引长度)/8192+预估范畴行数*0.2

3.ref索引扫描计算代价公式

计算环节：

//cardinality=49（基数，即有多少个不同key统计。）

SHOWTABLESTATUSLIKE'store_goods_center';

//页数量

page=数据总大小(字节)/页大小=7880704/16384=481;

//计算代价最低索引(sql_planner.cc中find_best_ref函数)

//IOCOST最坏不会超越全表扫描IO消耗的3倍(或许总记载数除以10)

//其中s->found_records示意表上的记载数，s->read_time在innodb层示意page数

//s->worst_seeks=min((double)s->found_records/10,(double)s->read_time*3);

//cur_read_cost=prefix_rowcount*min(table->cost_model()->page_read_cost(tmp_fanout),tab->worst_seeks);

//预估范畴行数（总数据条数：10万，预估数据条数：99827，有必定误差）

total_records=99827;

//预估范畴行数（总数据条数：1999，预估数据条数：1999，有必定误差）1999;

records=1999

//计算总代价

//1999*0.2中的系数0.2代表计算合乎条件的⾏的代价（ROW_EVALUATE_COST=0.2）

//s->worst_seeks=min((double)s->found_records/10,(double)s->read_time*3)->min(99827/10,481*3)=481*3

//min(table->cost_model()->page_read_cost(tmp_fanout),tab->worst_seeks)->min(page_read_cost(1999),481*3)=481*3

cost=IO-cost+CPU-cost=481*3+(1999*0.2)=1443+399.8=1842.80

验证结果：

explainformat=json

select*fromstore_goods_centerwherestation_no='53';

"cost_info":{"query_cost":"1842.80"}

总结公式：

上方3个公式，取值最低的

1.(数据总大小/16384)*3+预估范畴行数*0.2

2.总记载数/10+预估范畴行数*0.2

3.扫描出记载数+预估范畴行数*0.2

4.range索引扫描计算代价公式

//预估范畴行数（总数据条数：1299，预估数据条数：1299，有必定误差）1299;

records=1299

//计算代价最低索引(handler.cc中multi_range_read_info_const函数)

//计算总代价

//1299*0.2计算公式：cost_model->row_evaluate_cost(static_cast<double>(total_rows))

//+0.01计算公式：cost->add_cpu(cost_model->row_evaluate_cost(static_cast<double>(total_rows))+0.01);

//1299+1中的+1：单个扫描区间（id>35018）

//1299+1计算公式：*cost=read_cost(keyno,static_cast<double>(n_ranges),static_cast<double>(total_rows));

//(1299*0.2+0.01+1299)*1中的系数1代表从主内存缓冲池读取块的老本（SE_cost_constants::IO_BLOCK_READ_COST=1.0）

//1299*0.2中的系数0.2代表计算合乎条件的⾏的代价（ROW_EVALUATE_COST=0.2）

cost=IO-cost+CPU-cost=((1299*0.2+0.01+1299+1)*1)+(1299*0.2)=1559.81+259.8=1819.61

验证结果：

explainformat=json

select*fromstore_goods_centerwherestation_no='53'andid>35018;

"cost_info":{"query_cost":"1819.61"}

总结公式：

range扫描代价=预估范畴行数*1.4+0.01+范畴数

公式简化（去除影响较小的复杂计算）

range扫描代价=预估范畴行数*1.4

索引抵触案例

门店商品系统中关键存储门店与商品的关联消息，并为B端提供依据门店ID查问关联商品的性能。由于门店关联的商品数据量较大，须要分页查问关联商品数据。为防止深分页疑问，咱们选择基于上次最新主键启动查问（外围现实：经过主键索引，每次定位到ID所在位置，而后往后遍历N个数据。这样，无论数据量多少，查问性能都能坚持稳固。咱们将一切数据依据主键ID启动排序，而后分批次取出，将以后批次的最大ID作为下次查问的挑选条件）。

select字段1，字段2...fromstore_goods_centerwherestation_no=‘门店id’andid>上次查问最大idorderbyidasc

为了确保门店与商品组合的惟一性，咱们在MySQL表中为门店ID和商品ID参与了组合惟一索引【UNIQUEKEYuniq_storegoods(station_no,sku_id)USINGBTREE】。由于该索引蕴含门店ID并且在联结索引的第一个位置，查问会经常使用该索引。但是，当分页查问命中该索引后，由于排序字段不可经常使用索引，发生了【Usingfilesort】，造成门店商品系统出现了一些慢查问。为了处置这个疑问，咱们对慢查问启动了优化，优化思绪是创立一个新的索引，使该SQL可以经常使用索引的排序来规避【Usingfilesort】的负面影响，新参与的索引为【KEYidx_station_no_and_id(station_no,id)】。参与该索引后，成果空谷传声。

但是，咱们发现依然有慢查问发生，并且这些慢查问依然经常使用uniq_storegoods索引，而不是idx_station_no_and_id索引。咱们开局思索，为什么MySQL没有为咱们的系统介绍经常使用最优的索引？是MySQL索引介绍有疑问，还是咱们创立索引有疑问？如何做才干让MySQL帮咱们介绍咱们以为最优的索引？

当然，咱们也可以经常使用FORCEINDEX强行让MySQL走咱们提早预设的索引，但是这种模式局限太大，前期索引保养老本变得很高，甚至或许经常使用该SQL的其余业务性能变低。为了打破全体优化的卡点形态，咱们须要了解一下MySQL索引介绍底层逻辑，即MySQL代价模型。了解相应规定后，现阶段的疑问将迎刃而解。

案例剖析及优化

在回忆刚才的疑问时，咱们发现疑问源于原始索引发生了【Usingfilesort】，从而造成了慢查问的出现。为了处置这个疑问，咱们新增了一个索引，即【KEYidx_station_no_and_id(station_no,id)】，以代替原有的索引【UNIQUEKEYuniq_storegoods(station_no,sku_id)】。但是，虽然新增索引后大局部慢查问失掉了处置，但仍有局部慢查问未能消弭。进一步剖析发现，这些慢查问是由于SQL没有经常使用咱们希冀的索引，而是经常使用了老索引，从而引发了【Usingfilesort】疑问。在经过explain启动剖析后，咱们暂时还没有找到适宜的处置方案。

疑问：虽然咱们新增了索引，并且大局部SQL曾经能够经常使用新索引启动优化，但仍存在一些SQL没有经常使用新索引。

//经过代价模型启动剖析

//经常使用上方的测试数据启动剖析

//新增索引后都没有走新索引

//老索引，扫描行数：1999，代价计算值：1842.80，ref类型索引

//新索引，扫描行数：1999，代价计算值：1850.46，range类型索引

select字段1，字段2...fromstore_goods_centerwherestation_no=‘门店id’andid>-1orderbyidasc;

//新增索引后走新索引

//老索引，扫描行数：1999，代价计算值：1842.80，ref类型索引

//新索引，扫描行数：1299，代价计算值：1819.61，range类型索引

select字段1，字段2...fromstore_goods_centerwherestation_no=‘门店id’andid>35018orderbyidasc;

经过剖析MySQL的代价模型，咱们发现MySQL在选择经常使用哪个索引时，关键取决于扫描出的数据条数。详细来说，扫描出的数据条数越少，MySQL就越偏差于选择该索引（ 由于MySQL的索引数据访问类型各异，计算公式也会有所不同。因此，在多个索引的扫描行数相近的状况下，所选索引或许与咱们希冀的索引有所不同 ）。顺着这个思绪排查，咱们发现当id>-1时，无论是经常使用storeId+skuId还是storeId+id索引启动查问，扫描出的数据条数是相反的。这是由于这两种查问模式都是依据门店查问商品数据，且id值必需大于1。因此，关于MySQL来说，由于这两种索引扫描出的数据条数相反，所以经常使用哪种索引成果相差不多。这就是为什么一局部查问走新索引，而另一局部查问走老索引的要素。但是，当查问条件为id>n时，storeId+id索引的长处便得以浮现。由于它能够间接从索引中扫描并跳过id<=n的数据，而storeId+skuId索引却不可间接跳过这局部数据，因此真正扫描的数据条数storeId+skuId要大于storeId+id。因此，在查问条件为id>n时，MySQL更偏差于经常使用新索引。（须要留意的是，示例给出的数据索引数据访问类型不同，一个是range索引类型，一个是ref索引类型。由于算法不同，即使某个索引的检索数据率略高于另一个索引，也或许造成系统将其介绍为最优索引）

疑问曾经剖析清楚，关键要素是存在多个索引，且依据索引代价计算公式的代价相近，造成难以抉择。因此，处置这个疑问的方法不应该是同时定义两个会让MySQL"纠结"的索引选择。相反，应该将两个索引融合为一个索引。详细的处置方案是依据门店查问，将原来的主键id作为上次查问的最大id交流为skuId。在算法切换成功后，删除新的门店+主键id索引。但是，这种模式或许会引发另一个疑问。由于底层排序算法出现了变动（由原来的主键id改为skuId），或许造成不可间接从底层服务切换。此时，招思索从下游经常使用此接口服务的运行启动切换。须要留意的是，假设下游系统是单机分页迭代查问门店数据，那么下游系统可以间接启动切换。但假设这种分页查问举措同时交给多台运行主机口头，切换环节将变得相当复杂，他们的切换老本与底层切换老本相反。但是，这个系统的对外服务属于这种状况，下游调用系统会有多台运行主机单干分页迭代查问数据，为这次优化带来很大影响。

最终，让底层独立成功切换模式最为适宜。在切换环节中，关键在于正确区分新老算法。老算法在迭代环节中不应切换至新算法。原系统对外服务提供的下次迭代用的id可用来启动区分。新算法在前往下次迭代用的id基础上参与一个常量值，例如10亿（加完后不能与原数据抵触，也可以将迭代id由整数转换成正数以区分新老算法）。因此，假设是第一次性访问，间接经常使用新算法；假设不是第一次性访问，须要依据下次迭代用的id详细规定来判别能否切换新老算法。

总结与后续布局

经常使用Explan口头方案存在不可提早预知索引选择的局限性。但是，只需相熟MySQL底层代价模型的计算公式，咱们就能预知索引的走向。借助代价模型，咱们不只可以剖析索引抵触的要素，还可以在出现抵触之行启动预警。甚至在参与索引之前，咱们也可以依据代价模型公式来排查潜在疑问。此外，依据数据业务密度，咱们还可以预估以后索引的正当性，以及能否或许出现全表扫描等状况。因此，深化钻研MySQL代价模型关于优化索引治理具无关键意义。

未来咱们的系统运即将结合MySQL代价模型启动集成，成功智能剖析数据库和表的消息，以发现以后索引存在的疑问，例如索引抵触或未经常使用索疏造成的全表扫描。此外，该工具还可以针对尚未参与索引的表，依据数据状况提供适宜的索引介绍。同时，该工具还能够预测当数据到达某种密度时，或许出现全表扫描的疑问，从而协助提早做好优化预备。

为了成功这些性能，咱们将首先对MySQL代价模型启动深化钻研，片面了解其计算公式和原理。这将有助于咱们编写相应的算法，智能剖析数据库和表的消息，找出潜在的索引疑问。此外，咱们还关注易用性和适用性，确保用户能够轻松地输入相关数据库和表的消息，并失掉无关优化倡导。

该工具的开发将有助于提高数据库性能，缩小全表扫描的出现，降低系统资源消耗。同时，它还可以为数据库治理员和开发人员提供便利，使他们能够愈加专一于其余外围业务。经过结合MySQL代价模型，咱们置信这个工具将在优化索引治理方面施展关键作用，为企业带来更高的效益。

参考资料

什么是索引及MySQL索引原理和慢查询优化

索引目的索引的目的在于提高查询效率，可以类比字典，如果要查“mysql”这个单词，我们肯定需要定位到m字母，然后从下往下找到y字母，再找到剩下的sql。如果没有索引，那么你可能需要把所有单词看一遍才能找到你想要的，如果我想找到m开头的单词呢？或者ze开头的单词呢？是不是觉得如果没有索引，这个事情根本无法完成？索引原理除了词典，生活中随处可见索引的例子，如火车站的车次表、图书的目录等。它们的原理都是一样的，通过不断的缩小想要获得数据的范围来筛选出最终想要的结果，同时把随机的事件变成顺序的事件，也就是我们总是通过同一种查找方式来锁定数据。数据库也是一样，但显然要复杂许多，因为不仅面临着等值查询，还有范围查询(>、<、between、in)、模糊查询(like)、并集查询(or)等等。数据库应该选择怎么样的方式来应对所有的问题呢？我们回想字典的例子，能不能把数据分成段，然后分段查询呢？最简单的如果1000条数据，1到100分成第一段，101到200分成第二段，201到300分成第三段……这样查第250条数据，只要找第三段就可以了，一下子去除了90%的无效数据。但如果是1千万的记录呢，分成几段比较好？稍有算法基础的同学会想到搜索树，其平均复杂度是lgN，具有不错的查询性能。但这里我们忽略了一个关键的问题，复杂度模型是基于每次相同的操作成本来考虑的，数据库实现比较复杂，数据保存在磁盘上，而为了提高性能，每次又可以把部分数据读入内存来计算，因为我们知道访问磁盘的成本大概是访问内存的十万倍左右，所以简单的搜索树难以满足复杂的应用场景。索引的数据结构前面讲了生活中索引的例子，索引的基本原理，数据库的复杂性，又讲了操作系统的相关知识，目的就是让大家了解，任何一种数据结构都不是凭空产生的，一定会有它的背景和使用场景，我们现在总结一下，我们需要这种数据结构能够做些什么，其实很简单，那就是：每次查找数据时把磁盘IO次数控制在一个很小的数量级，最好是常数数量级。那么我们就想到如果一个高度可控的多路搜索树是否能满足需求呢？就这样，b+树应运而生。

超详细MySQL数据库优化

数据库优化一方面是找出系统的瓶颈,提高MySQL数据库的整体性能,而另一方面需要合理的结构设计和参数调整,以提高用户的相应速度,同时还要尽可能的节约系统资源,以便让系统提供更大的负荷.

1. 优化一览图

2. 优化

笔者将优化分为了两大类,软优化和硬优化,软优化一般是操作数据库即可,而硬优化则是操作服务器硬件及参数设置.

2.1 软优化

2.1.1 查询语句优化

1.首先我们可以用EXPLAIN或DESCRIBE(简写:DESC)命令分析一条查询语句的执行信息.

2.例:

显示:

其中会显示索引和查询数据读取数据条数等信息.

2.1.2 优化子查询

在MySQL中,尽量使用JOIN来代替子查询.因为子查询需要嵌套查询,嵌套查询时会建立一张临时表,临时表的建立和删除都会有较大的系统开销,而连接查询不会创建临时表,因此效率比嵌套子查询高.

2.1.3 使用索引

索引是提高数据库查询速度最重要的方法之一,关于索引可以参高笔者<MySQL数据库索引>一文,介绍比较详细,此处记录使用索引的三大注意事项:

2.1.4 分解表

对于字段较多的表,如果某些字段使用频率较低,此时应当,将其分离出来从而形成新的表,

2.1.5 中间表

对于将大量连接查询的表可以创建中间表,从而减少在查询时造成的连接耗时.

2.1.6 增加冗余字段

类似于创建中间表,增加冗余也是为了减少连接查询.

2.1.7 分析表,,检查表,优化表

分析表主要是分析表中关键字的分布,检查表主要是检查表中是否存在错误,优化表主要是消除删除或更新造成的表空间浪费.

1. 分析表: 使用 ANALYZE 关键字,如ANALYZE TABLE user;

2. 检查表: 使用 CHECK关键字,如CHECK TABLE user [option]

option 只对MyISAM有效,共五个参数值:

3. 优化表:使用OPTIMIZE关键字,如OPTIMIZE [LOCAL|NO_WRITE_TO_BINLOG] TABLE user;

LOCAL|NO_WRITE_TO_BINLOG都是表示不写入日志.,优化表只对VARCHAR,BLOB和TEXT有效,通过OPTIMIZE TABLE语句可以消除文件碎片,在执行过程中会加上只读锁.

2.2 硬优化

2.2.1 硬件三件套

1.配置多核心和频率高的cpu,多核心可以执行多个线程.

2.配置大内存,提高内存,即可提高缓存区容量,因此能减少磁盘I/O时间,从而提高响应速度.

3.配置高速磁盘或合理分布磁盘:高速磁盘提高I/O,分布磁盘能提高并行操作的能力.

2.2.2 优化数据库参数

优化数据库参数可以提高资源利用率,从而提高MySQL服务器性能服务的配置参数都在或,下面列出性能影响较大的几个参数.

2.2.3 分库分表

因为数据库压力过大，首先一个问题就是高峰期系统性能可能会降低，因为数据库负载过高对性能会有影响。另外一个，压力过大把你的数据库给搞挂了怎么办？所以此时你必须得对系统做分库分表 + 读写分离，也就是把一个库拆分为多个库，部署在多个数据库服务上，这时作为主库承载写入请求。然后每个主库都挂载至少一个从库，由从库来承载读请求。

2.2.4 缓存集群

如果用户量越来越大，此时你可以不停的加机器，比如说系统层面不停加机器，就可以承载更高的并发请求。然后数据库层面如果写入并发越来越高，就扩容加数据库服务器，通过分库分表是可以支持扩容机器的，如果数据库层面的读并发越来越高，就扩容加更多的从库。但是这里有一个很大的问题：数据库其实本身不是用来承载高并发请求的，所以通常来说，数据库单机每秒承载的并发就在几千的数量级，而且数据库使用的机器都是比较高配置，比较昂贵的机器，成本很高。如果你就是简单的不停的加机器，其实是不对的。所以在高并发架构里通常都有缓存这个环节，缓存系统的设计就是为了承载高并发而生。所以单机承载的并发量都在每秒几万，甚至每秒数十万，对高并发的承载能力比数据库系统要高出一到两个数量级。所以你完全可以根据系统的业务特性，对那种写少读多的请求，引入缓存集群。具体来说，就是在写数据库的时候同时写一份数据到缓存集群里，然后用缓存集群来承载大部分的读请求。这样的话，通过缓存集群，就可以用更少的机器资源承载更高的并发。

一个完整而复杂的高并发系统架构中，一定会包含：各种复杂的自研基础架构系统。各种精妙的架构设计.因此一篇小文顶多具有抛砖引玉的效果,但是数据库优化的思想差不多就这些了.

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: MySQL